Garder un oeil critique sur la tech

Scraping en masse : conflit entre l’extraction massive de données et la protection de la vie privée

L'essor fulgurant de l'intelligence artificielle repose sur l'extraction massive de données personnelles en ligne, une pratique qui soulève de sérieuses questions éthiques et juridiques. Cette technique, connue sous le nom de "scraping", se trouve aujourd'hui au cœur d'un conflit majeur entre innovation technologique et protection de la vie privée.

Le “scraping”, ou extraction automatisée de données sur internet, n’est pas nouveau. Depuis les débuts du web commercial dans les années 90, des programmes baptisés “bots” ou “spiders” parcourent la toile pour collecter des informations. Mais l’explosion de l’IA a donné une nouvelle dimension à cette pratique.

“Nous sommes au milieu de ce que nous appelons le scraping en masse, affirment les professeurs Daniel J. Solove et Woodrow Hartzog, auteurs d’une étude approfondie sur le sujet 1. Les géants de la tech se livrent en effet à une véritable ruée vers l’or des données personnelles pour alimenter leurs modèles d’IA.

L’exemple le plus frappant est sans doute celui de Clearview AI, une start-up qui a aspiré plus de 3 milliards d’images en ligne 2 pour développer un système de reconnaissance faciale, aujourd’hui largement utilisé par les forces de l’ordre. OpenAI, créateur du célèbre ChatGPT, a également mené des campagnes massives de scraping pour entraîner ses modèles.

Un conflit fondamental avec les principes de protection de la vie privée

Cette collecte effrénée de données se heurte frontalement aux principes fondamentaux de protection de la vie privée. “Le scraping viole presque tous les principes clés des lois sur la protection des données”, soulignent Solove et Hartzog. Consentement des utilisateurs, transparence, limitation des finalités, minimisation des données… autant de règles bafouées par cette pratique.

Les défenseurs du scraping arguent souvent que les données collectées sont “publiques” et donc librement utilisables. Un argument que les chercheurs balaient : “Le fait que des données soient publiquement accessibles ne signifie pas que les gens ont volontairement renoncé à toute attente de confidentialité”. Ils rappellent que de nombreuses lois protègent les informations publiquement disponibles.

Vers une réconciliation nécessaire mais complexe

Face à ce conflit, une interdiction pure et simple du scraping pourrait sembler la solution. Mais les auteurs mettent en garde contre les conséquences d’une telle approche. “Interdire le scraping aurait un coût financier et social énorme, car de nombreuses fonctions de base de recherche et de récupération d’informations sur Internet en dépendent”, expliquent-ils.

La solution proposée par Solove et Hartzog est plus nuancée. Ils plaident pour une approche basée sur l’intérêt public : “Le scraping devrait être autorisé (et même facilité) pour des interventions ciblées dans l’intérêt public, avec des protections procédurales et substantielles pour garantir l’adéquation à l’objectif et éviter l’exploitation”.

Quelles pistes de régulation ?

Concrètement, les chercheurs proposent de considérer la collecte et l’utilisation de données personnelles comme un privilège plutôt qu’un droit naturel des organisations. Le scraping ne serait autorisé que lorsqu’il sert véritablement l’intérêt public, avec des garde-fous stricts.

Ils esquissent également des lignes directrices pour encadrer cette pratique, articulées autour de quatre principes :

  1. Un risque raisonnable de préjudice
  2. Des avantages proportionnels
  3. Un processus équitable et transparent
  4. Des protections équivalentes à celles des autres données personnelles

“Le scraping ne doit pas être traité comme une exception”, insistent les auteurs. “Les données aspirées ne doivent pas être considérées comme de seconde classe”.

La réconciliation entre scraping et protection de la vie privée s’annonce délicate. Elle nécessitera “de la créativité pour protéger la vie privée au-delà de nombreux principes et lois traditionnels”, concluent Solove et Hartzog.

À l’heure où l’IA façonne de plus en plus nos vies, une question cruciale se pose : comment concilier innovation technologique, capitalisme de surveillance et protection des droits fondamentaux des individus ?

  1. Solove, Daniel J. and Hartzog, Woodrow, The Great Scrape: The Clash Between Scraping and Privacy (July 03, 2024). ↩︎
  2. Son site indique aujourd’hui près de 50 milliards d’images ↩︎
Partager cet article
URL partageable
Lire la suite

Hiroshima mon amour

Le G7 initie le processus d'Hiroshima, une initiative pour réguler l'IA générative, une association de symboles…
Le G7 initie un processus sous le nom d'Hiroshima, une association de symboles douteuse.

La question du Copyright

La question du droit d'auteur devient centrale à mesure que les décisions des cours américaines s'enchainent et…
La question du droit d'auteur devient centrale à mesure que les décisions des cours américaines s'enchainent et que la rancoeur gronde.
Abonnez-vous à la newsletter
Gardez un oeil critique sur la tech !