La base légale de l’intérêt légitime : fiche focus sur les mesures à prendre en cas de collecte des données par moissonnage (web scraping)

10 juin 2024

La collecte des données accessibles en ligne par moissonnage (web scraping) doit être accompagnée de mesures visant à garantir les droits des personnes concernées.

La collecte de données personnelles accessibles en ligne par moissonnage (web scraping) reposant généralement sur l’intérêt légitime, le responsable du traitement devra mettre en œuvre certaines mesures additionnelles, permettant de limiter l’atteinte qu’elle peut porter aux intérêts, droits et libertés des personnes.

Rappel sur la doctrine de la CNIL

Le moissonnage des données accessibles en ligne s’est fortement développé, notamment avec l’essor rapide et généralisé des systèmes d’IA générative, qui ont recours aux vastes quantités de données librement accessibles en ligne. Il existe toutefois des risques inhérents à l’utilisation de telles techniques pour les droits et libertés des personnes, qui ne maîtrisent pas les réutilisations de leurs données accessibles en ligne. La généralisation des pratiques de moissonnage a ainsi opéré un changement de nature quant à l’utilisation d’internet, dans la mesure où toutes les données publiées en ligne par une personne sont désormais susceptibles d’être lues, collectées et réutilisées par des tiers, ce qui constitue un risque important et inédit pour les personnes.

La CNIL a régulièrement appelé à la vigilance concernant ces pratiques, tout en émettant une série de préconisations à respecter pour les mettre en œuvre. Ella a également plusieurs fois appelé à ce qu’elle fasse l’objet d’un encadrement législatif ad hoc (voir notamment l’avis de la CNIL du 15 décembre 2022 sur le projet « Polygraphe »), ce qui permettrait à la fois de sécuriser les organismes y ayant recours, d’encadrer cette pratique et de protéger les données personnelles librement accessibles en ligne.

Dans certains cas, la CNIL a eu l’occasion de considérer que de telles pratiques étaient interdites en l’absence d’un tel encadrement juridique (notamment lorsque les traitements sont mis en œuvre par des autorités compétentes à des fins de détection d’infraction). A l’inverse, elles ont été admises dans d’autres cas de figure, sous réserve de la mise en place de garanties fortes, par exemple pour la recherche sur internet de fuites d’informations (RIFI).

Pour l’instant, en l’absence d’un encadrement juridique spécifique, cette fiche rappelle les obligations des responsables de traitements et précise les conditions dans lesquelles de tels traitements pourraient être mis en œuvre pour le développement d’un système d’IA.

La légalité des pratiques de moissonnage dépend notamment de la possibilité de mobiliser une base légale valide. La collecte de données accessibles en ligne pour la constitution d’une base de données d’apprentissage peut se fonder sur la base légale de l’intérêt légitime à condition d’en respecter les conditions rappelées dans la fiche relative à l’intérêt légitime.

Les mesures obligatoires


Les garanties supplémentaires