Données de la recherche - 2. Contexte juridique
Cette page présente le contexte juridique régissant le partage des données de la recherche : propriété, licences à appliquer, réutilisation...

Quand partager ses données ?

Pour s’inscrire dans cette démarche de Science Ouverte, de plus en plus d’éditeurs et de financeurs exigent la publication des données qui accompagnent notamment une publication.

De nombreuses revues ont désormais une politique de données qu’on trouve dans leurs pages Data Policy ; cela concerne les données qui pourraient servir de preuve à la démonstration scientifique présentée dans un article. Certains éditeurs préconisent voire imposent un ou plusieurs entrepôts pour y déposer les données (exemple : groupe Springer Nature, Geoscience Data Journal).

Pour ce qui concerne les financeurs, l’exigence de l’Union Européenne portait déjà sur le fait que les articles scientifiques (peer-reviewed) produits dans le cadre de projets qu’elle finance devaient être rendus gratuitement et librement accessibles. Depuis 2017, le contrat implique par défaut que les données de la recherche liées à ces publications doivent aussi être partagées. Mais la décision de partager dépend entièrement des bénéficiaires du financement ; en effet toutes les données ne peuvent pas être mises en libre accès et il reste possible de se désengager totalement ou partiellement de cette obligation (opt-out) sous certaines conditions (ré-exploitation industrielle envisagée, confidentialité, danger à publier les données, …). La philosophie de l’UE sur ce point repose en une phrase :

« As open as possible, as closed as necessary »


© European Union, 2016

De nombreux pays ont défini une politique de partage des données, comme par exemple les Etats-Unis via la National Science Foundation, le Royaume-Uni avec les recommandations des Research Councils, l'Allemagne, les Pays-Bas ou tout récemment la Suisse. Le G8 des Ministres de la Recherche s’est également engagé en faveur d’une Science Ouverte intégrant la mise à disposition des données.

En France, si l’ANR encourage au partage, c’est aussi le cadre réglementaire et législatif qui peut conduire le chercheur à la mise en ligne de ses données. Dès 1978, la loi CADA stipulait que les administrations ne pouvaient pas s’opposer à la réutilisation de leurs données (sans pour autant les contraindre à les partager de façon pro-active), mais l’ESR n’était pas concerné. Cette exception a été levée en 2015 avec la loi Valter relative à la gratuité et aux modalités de réutilisation des informations du secteur public. Par ailleurs, le Code de la recherche (article L112-1) indique qu’un des objectifs de la recherche publique est « l'organisation de l'accès libre aux données scientifiques » et la directive européenne INSPIRE impose aux autorités publiques de rendre accessibles les données géographiques qu’elles détiennent.

À cela s’ajoute désormais depuis octobre 2016 la Loi pour une République Numérique, dite Loi Lemaire, dont nous avons parlé dans la Newsletter IST n°12. Cette loi n’indique pas explicitement que la publication en ligne des données de la recherche est obligatoire, mais certains juristes l’interprètent dans ce sens notamment si on considère que les données issues d’une activité de recherche sont à considérer comme des documents administratifs, dans le sens juridique du terme.

Métaphore des données et du gâteau

© EpicGraphic

Ce qui est en revanche très clair c’est que, dans l’objectif d’éviter la captation par les éditeurs des données produites dans le cadre de la recherche publique, la loi prévoit que la réutilisation de ces données soit libre (à condition qu’elles ne soient pas protégées par un droit spécifique), dès que celles-ci ont été rendues publiques par le chercheur. En conséquence, elles pourront être utilisées librement même à des fins commerciales.

Dans ce contexte juridique complexe, il faut retenir que si une association, une entreprise ou n’importe quel individu en France ou à l’étranger a connaissance de l’existence d’un jeu de données non publiés, il lui sera possible d’en faire la demande (loi CADA) et, sauf exceptions, l’établissement concerné sera dans l’obligation de fournir les données, de les mettre en ligne et de les garder à jour, et ce dans un format ouvert et librement réutilisable.

Il existe bien entendu de nombreuses exceptions (secret défense, données personnelles, données de santé, données provenant d’un tiers privé, etc…) et par ailleurs, il est important de noter que l’on parle ici en termes juridiques de “documents administratifs achevés” et que les données non validées de carnets de laboratoires ne sont donc pas concernées. Mais toutes les autres données peuvent faire l’objet d’une valorisation. Les codes sources sont des documents administratifs comme les autres et à condition qu’ils ne contiennent pas des éléments de codes tiers et sous réserve que leur publication ne porte pas atteinte à la sécurité du système d’information de l’établissement, ils peuvent faire aussi l’objet d’une demande de communication.

 

Quelle licence appliquer ?

Les données et le code informatique sont considérés par la loi comme des documents administratifs. Lors de leur partage, il est possible de leur appliquer une licence ; c’est obligatoire si leur réutilisation est payante.

Décret définissant la liste des licences

Le décret n° 2017-638 du 27 avril 2017 définit les licences qui peuvent être appliquées sur les documents administratifs partagés. Mais au-delà du décret, la loi dit que la réutilisation des données de la recherche librement diffusées est libre : cela veut dire qu’on peut les réutiliser même de façon commerciale et même sans nommer les auteurs. Il est donc inutile de choisir une licence trop restrictive. Le décret prévoit deux licences :

Pour le code, le décret prévoit deux types de licences :

  • Les licences permissives : BSDL, Apache, CeCILL-B et MIT License. Les utilisateurs sont libres de réutiliser le code de façon commerciale et d’en changer la licence. Ce sont les licences les plus confortables pour les entreprises qui peuvent protéger les logiciels qu’elles développent à partir de briques en licences permissives.
  • Les licences avec obligation de réciprocité, ou “copyleft fort” : Mozilla Public License, GNU GPL et CeCILL. Les utilisateurs doivent conserver la licence du code qu’ils réutilisent, et l’appliquer (la propager) à tout le logiciel dans lequel il est inclus. Ces licences permettent à la communauté scientifique de bénéficier des développements ultérieurs des logiciels.

Les licences CeCILL et GNU GPL sont interchangeables devant les juridictions françaises et anglo-saxonnes et peuvent donc être choisies indifféremment. Si aucune licence n’est appliquée, tous les droits sont réservés par défaut, c’est-à-dire que la réutilisation commerciale et le partage ne sont pas autorisés.

Droit moral et droit patrimonial

La propriété intellectuelle se décline en droits moraux et droits patrimoniaux. Le droit moral appartient à l’auteur et lui permet d’être cité. Le droit patrimonial appartient aux tutelles et leur permet d’être citées, et de décider de la licence à appliquer parmi celles proposées dans le décret.

En principe c’est à la tutelle et à ses services juridiques de définir la politique de l’établissement sur les droits patrimoniaux du code et des données diffusées, et de s’accorder avec les autres tutelles. Lorsque la tutelle ne donne pas d’indication, les laboratoires et les chercheurs sont de facto libres de gérer le partage du code et des données de manière autonome.

Voir aussi "Données de la recherche - 1. Introduction"

Voir aussi "Données de la recherche - 3. Aspects techniques"


Le Pôle IST se forme et s’informe tous les jours sur ce sujet mais des informations et des habitudes doivent aussi exister dans votre communauté. N’hésitez pas à nous solliciter pour que l’on définisse ensemble à quels niveaux nous pouvons être un soutien pour vous.

Vous le savez, nous aimons les défis !!
We are data librarians !