Le Pôle IST met à disposition des chercheurs un outil d’aide à la décision en matière de partage des données de la recherche. Il se trouve sous la forme d’un logigramme à plat ou d'un logigramme dynamique.
Pour une information exhaustive vous pouvez également consulter l'analyse synthétique du cadre juridique concernant les données de la recherche.
Contexte politique en faveur de la Science Ouverte
International
Des pays ont défini une politique de partage des données, comme par exemple les États-Unis via la National Science Foundation, le Royaume-Uni avec les recommandations du UK Research and Innovation, l'Allemagne, les Pays-Bas ou la Suisse. Le G8 des Ministres de la Recherche s’est également engagé en faveur d’une Science Ouverte intégrant la mise à disposition des données.
Europe
Au niveau européen, de nombreuses agences, dont l’ANR, regroupées au sein de la cOAlition S, encouragent fortement au dépôt des données issues des travaux qu’elles financent dans le Plan S qui entre en vigueur le 1er janvier 2021.
Depuis 2017, l’exigence de l’Union Européenne porte déjà sur le fait que les articles scientifiques (peer-reviewed) produits dans le cadre de projets qu’elle finance devaient être rendus gratuitement et librement accessibles. Le contrat implique par défaut que les données de la recherche liées à ces publications doivent aussi être partagées. Mais la décision de partager dépend entièrement des bénéficiaires du financement ; en effet toutes les données ne peuvent pas être mises en libre accès et il reste possible de se désengager totalement ou partiellement de cette obligation (opt-out) sous certaines conditions (ré-exploitation industrielle envisagée, confidentialité, danger à publier les données…). La philosophie de l’UE sur ce point repose en une phrase :
« As open as possible, as closed as necessary »
France
En France, le Plan national pour la Science Ouverte annonce également l’obligation de diffusion des données issues de recherches financées par des fonds publics mais cette obligation est de toute façon déjà inscrite dans la loi.
Revues
Pour s’inscrire dans cette démarche de Science Ouverte, de plus en plus d’éditeurs et de financeurs exigent la publication des données qui accompagnent notamment une publication.
De nombreuses revues ont désormais une politique de données qu’on trouve dans leurs pages Data Policy ; cela concerne les données qui pourraient servir de preuve à la démonstration scientifique présentée dans un article. Certains éditeurs préconisent voire imposent un ou plusieurs entrepôts pour y déposer les données (exemple : groupe Springer Nature, Geoscience Data Journal).
Titularité des droits
Il apparaît en règle générale que, pour les chercheurs de l'École des Ponts, c’est cette dernière qui est titulaire des droits sur les données. Les exceptions concernent les contrats avec un partenaire extérieur ou le statut d’enseignant-chercheur de l’université, dont aucun personnel de l’École des Ponts ne relève.
En ce qui concerne le code, c’est l’École qui est en principe titulaire des droits patrimoniaux, quel que soit le statut du chercheur. Si le code fait l’objet d’une valorisation commerciale par l’École, les agents auteurs ne disposent que d’un droit de préférence et doivent bénéficier d’une prime d’intéressement.
Dans un souci d’efficience, pour rester en adéquation avec les pratiques scientifiques, et afin d’encourager au partage des données, l’École des Ponts a délégué aux chercheurs la mise en œuvre de la diffusion des données et du code informatique dans le respect de la loi.
Voir la décision du 19 décembre 2018 de la Directrice de l’École des Ponts.
Obligation de diffusion et exceptions
Il n’existe pas de droit unifié de la donnée. Il faut se référer à différents textes juridiques ou aux éventuels contrats ou conventions.
Les données et le code sont considérés comme des documents administratifs : cela implique un droit d’accès sur demande, une obligation de diffusion gratuite et une libre réutilisation (même commerciale).
L'École ne peut pas commercialiser de données de la recherche. La seule option ouverte est de commercialiser des outils, des services ou des prestations associés aux données diffusées gratuitement. C’est un principe de libre concurrence qui s’applique, où tous les acteurs ont leurs chances à partir des mêmes données publiques.
De la possibilité de partager à l’obligation de diffusion
Depuis la Loi pour une République Numérique, les données achevées doivent obligatoirement être publiées en ligne si au moins l’un des 4 critères suivants est rempli :
- elles ont fait l’objet d’une demande de communication selon la procédure CADA,
- elles sont signalées dans le répertoire des principaux documents administratifs que doit tenir l'École,
- il s’agit d’une base de données,
- les données ont un intérêt environnemental, social, sanitaire ou économique.
Une fois diffusées en ligne, les données et les bases de données doivent être mises à jour régulièrement. Il n’existe pas d’obligation de diffusion si les données ne sont pas achevées (deux exceptions existent cependant : les données géographiques numériques qui relèvent de la directive européenne INSPIRE et les données personnelles).
Les exceptions
Dans toutes les situations, la possibilité ou l'obligation de diffuser signifie qu'il a été vérifié que cela ne portait pas atteinte à la protection de la vie privée, au secret médical, au secret des affaires d’une personne, au secret défense.
Le cas particulier des données personnelles
Si la demande émane de la personne concernée par ces données personnelles, ces données doivent être communiquées à cette personne uniquement. Dans le cas contraire, les données peuvent être diffusées mais après avoir été anonymisées ou pseudonymisées ou encore si la ou les personnes ont donné leur consentement préalable.
Le cas particulier des données géographiques
La directive européenne INSPIRE vise à établir une infrastructure d'information géographique dans l’Union Européenne pour favoriser la protection de l'environnement. Elle rend obligatoire la diffusion en ligne par les autorités publiques des données géographiques disponibles au format numérique, même inachevées.
Les données environnementales
La convention d’Aarhus stipule que les données environnementales doivent être diffusées si elles ont fait l’objet d’une demande. Contrairement à la directive INSPIRE, les données doivent être achevées.
Les données issues de text ou data-mining
Que ce soit pour gagner du temps dans l’exploration de la littérature scientifique ou plus souvent pour explorer un grand volume de textes ou de données, les chercheurs recourent à des outils automatisant ce travail. Les données issues de ce travail peuvent donc être diffusées, en revanche, les textes sources ne peuvent l’être que dans le respect du principe de la courte citation.
Les photos
Les chercheurs peuvent être amenés à prendre des photos qui sont alors la base de leurs travaux. Pour savoir si elles peuvent être diffusées, il faut tout d’abord vérifier si des personnes reconnaissables y figurent. Si oui, c’est seulement avec le consentement de la personne que la diffusion pourra se faire. Dans le cas contraire, et même s’il y a des bâtiments ou oeuvres reconnaissables dessus, rien n'empêche la diffusion (“exception de panorama”).
Les données scrapées
Les données ne peuvent être diffusées que dans le respect des CGU et dans une part non substantielle. Ceci étant dit, il faut intégrer que les chercheurs retravaillent et analysent ces données scrapées avant de les publier dans le cadre de leur recherche. Le préjudice potentiel vis-à-vis du producteur des données est donc nul et le risque encouru aussi.
Les spécificités du code informatique
Le code est considéré comme un document administratif comme les données. Il convient de se reporter à la fois aux licences appliquées sur les briques de code externes qui sont réutilisées, et aux conventions signées entre l'École et ses partenaires, pour savoir ce qui peut être diffusé et selon quelle licence. Au sein de l’École, c'est cette dernière qui est en principe titulaire des droits patrimoniaux sur le code : il est alors soumis aux mêmes obligations de diffusion que les données. Les éléments auxiliaires du logiciel (interface utilisateur, cahier des charges, documentation) sont protégés par le droit d’auteur commun : lors de leur diffusion il convient alors de vérifier la titularité des droits.
Quelle licence appliquer ?
Lors de la diffusion du code ou des données, s’il n’y a pas d’autre obligation légale (convention, réutilisation de briques de code ou de données avec une licence préexistante), la loi impose de choisir entre deux types de licences. On peut en trouver les textes sur le site data.gouv.fr.
Des licences permissives : elles ne protègent que la paternité des auteurs et limitent leur responsabilité. Elles offrent toute liberté de réutilisation, rediffusion, exploitation même commerciale ou modification de licence. Elles sont à choisir de préférence :
- pour le code : BSDL, Apache, CeCILL-B et MIT Licence
- pour les données : Licence ouverte Etalab
Des licences avec obligation de réciprocité (ou copyleft) : elles obligent d’une part à conserver les conditions de la licence d’origine, et d’autre part à les propager à toute l’oeuvre dérivée. Elles peuvent donc restreindre l’utilisation commerciale des données et du code et ne doivent être utilisées que de façon proportionnée pour un motif d’intérêt général.
- pour le code : Mozilla Public License, GNU GPL et CeCILL
- pour les données : Open Database Licence
Voir aussi "Données de la recherche - 1. Introduction"
Voir aussi "Données de la recherche - 3. Aspects techniques"
Le Pôle IST se forme et s’informe tous les jours sur ce sujet mais des informations et des habitudes doivent aussi exister dans votre communauté. N’hésitez pas à nous solliciter pour que l’on définisse ensemble à quels niveaux nous pouvons être un soutien pour vous.