Questionnaire sur l’application du RGPD aux modèles d’IA / Questionnaire on the application of the GDPR to AI models

  • Actuel Introduction
  • Remise en contexte - Contextualization
  • Questionnaire
  • Terminé

Comme cela est étayé par la littérature scientifique, la CNIL constate que les modèles d’IA mémorisent parfois une partie des données utilisées pour leur apprentissage. Lorsque celles-ci comportent des données personnelles, les modèles d’IA pourraient entrer dans le champ d’application du RGPD.

La CNIL invite les fournisseurs et utilisateurs de systèmes d’IA, ainsi que l’ensemble des acteurs concernés, à apporter leurs éclairages sur les conditions dans lesquelles les modèles d’IA peuvent être considérés comme anonymes ou doivent être encadrés par le RGPD.

Le développement d’un modèle d’IA est un traitement consistant à modéliser un ensemble de données d’apprentissage :  le modèle d’IA constitué est une représentation des caractéristiques de la base qui a servi à l’entraîner. Cette modélisation peut donner lieu à une mémorisation des données d’entraînement, induisant un risque que les données d’apprentissage puissent être reconstruites à partir du modèle entraîné.

La vraisemblance de ce risque dépend toutefois des situations :

  • Certains modèles d’IA génératifs entraînés sans précautions pourront régurgiter des données d’apprentissage à l’identique dans le cadre de leur utilisation courante.
     
  • Dans d’autres cas, il sera nécessaire de conduire des attaques poussées sans de plus avoir de garanties théoriques sur la véracité de l’information obtenue.

Les risques liés à la mémorisation de données personnelles varient donc de façon très importante en fonction des modèles, des données utilisées et des contextes d’utilisation. Il pourrait sembler inadapté d’exiger que la même analyse soit conduite afin de prouver le caractère anonyme des modèles dans les deux configurations décrites ci-dessus.

Par ailleurs, la charge de cette analyse pourrait en théorie revenir au fournisseur du modèle ou à son utilisateur, mais les informations dont dispose ce dernier ne pourront pas toujours lui permettre d’accomplir cette tâche. Ainsi, la CNIL s’interroge également sur l’acteur à qui pourrait revenir la responsabilité de cette analyse selon les configurations.

Avec ce questionnaire, la CNIL sollicite les parties prenantes du secteur pour adapter ses futures recommandations aux risques réels et aux capacités du secteur à les réduire.


 

As supported by the scientific literature, the CNIL has observed that AI models sometimes memorise part of their training data. Where these include personal data, AI models could fall within the scope of the GDPR.

The CNIL invites providers and users of AI systems, as well as all relevant stakeholders, to shed light on the conditions under which AI models can be considered anonymous or must be regulated by the GDPR.

The development of an AI model consists in modelling a set of training data:  once trained, the AI model is a representation of the characteristics of the training dataset. This modelling can lead to a memorisation of the data, creating a risk that the data could be reconstructed from the model.

The likelihood of this risk, however, depends on the situation:

  • Some unprecautionarily trained generative AI models will be able to regurgitate training data identically as part of their normal use.
     
  • In other cases, it will be necessary to carry out extensive attacks without any theoretical guarantees as to the veracity of the information obtained.

The risks associated with the memorization of personal data therefore vary greatly depending on the models, the data used and the contexts of use. It might seem inappropriate to require the same analysis to be carried out in order to prove the anonymity of the models in the two configurations described above.

Moreover, the burden of this analysis could in theory fall on the model provider or its user, but the information available to the latter may not always allow it to perform this task. Thus, the CNIL also wishes to question participants on the actor to whom the responsibility for this analysis could fall, depending on the configurations.

With this questionnaire, the CNIL wishes to interrogate all stakeholders to adapt its future recommendations to the real risks and to the capacities of the sector to reduce them.

La CNIL traite les données recueillies à partir de ce formulaire afin d'analyser les observations des participants en vue d'adopter les recommandations concernées. Les données sont également collectées pour réaliser des statistiques relatives aux contributions et, si nécessaire, pour contacter les contributeurs afin d'approfondir les échanges ou les tenir informés des suites de la consultation. La base légale du traitement est l'exercice de l'autorité publique. Les données sont communiquées aux services de la CNIL en charge de l'analyse des réponses fournies.

Vous pouvez accéder à vos données, vous opposer à leur traitement, demander leur rectification ou leur effacement. Vous pouvez également exercer votre droit à la limitation du traitement de vos données.

En savoir plus sur la gestion de vos données et vos droits.


The CNIL processes the data collected via this form in order to analyse the comments of the participants with a view to adopting the recommendations concerned. The data are also collected to produce statistics on contributions and, if necessary, to contact contributors in order to deepen the exchanges or keep them informed of the outcome of the consultation. The legal basis for the processing if the performance of a task carried out in the public interest. The data are communicated to the CNIL departments responsible for the analysis of the responses provided.

You can access your data, object to their processing, request their rectification or erasure. You can also exercise your right to limit the processing of your data.

If you want to learn more about the processing of your data, click here.