EN UN COUP D’OEIL
- Deux destins croisés : Aaron Swartz, militant du libre accès, et Sam Altman, pionnier de l’IA générative, issus de Y Combinator.
- Du téléchargement à l’IA : Évolution des discours sur les droits numériques, entre activisme, controverses et exploitation massive des données.
- Un enjeu d’éthique et de pouvoir : L’illusion d’ouverture des systèmes d’IA renforce la concentration des pouvoirs privés sur les données.
En 2005, Sam Altman et Aaron Swartz participaient à la première session d’incubation de Y Combinator. Leurs parcours illustrent l’évolution des débats autour du libre accès à tout ou partie du contenu disponible en ligne.
La photo a un peu circulé en ligne : en 2005, les participants de la première session du mythique accélérateur de start-up Y Combinator, imaginé à Cambridge par le programmeur Paul Graham et l’investisseuse Jessica Livingston, posent pour une photo de classe. Au deuxième rang, un peu sur la droite du cliché, Aaron Swartz se tient aux côtés de Sam Altman.
Le premier a 19 ans, le second vient tout juste de passer dans la vingtaine. Ils servent autant de crash-test aux cofondateurs de Y Combinator, qui les ont recrutés « pour apprendre à devenir de bons business angels », qu’eux utilisent l’argent reçu pour développer leurs projets d’entreprises.
20 ans plus tard, Swartz reste dans les mémoires pour son activisme en faveur du libre accès à la connaissance et de la protection d’informations sensibles. Sam Altman, lui, mène la danse d’une approche de la donnée au service des fabricants d’intelligence artificielle générative comme OpenAI, profitant d’une nette évolution des discours relatifs aux droits d’accès aux contenus numériques.
2010 : téléchargement sévèrement poursuivi
L’été de son passage à Y Combinator, Aaron Swartz travaille sur Infogami, un système de création de sites web qu’il fusionnera quelques mois plus tard avec Reddit, co-fondé au mois de novembre suivant avec Alexis Ohanian et Steve Huffman. Sam Altman, de son côté, co-fonde Loopt, une application de réseautage utilisant la géolocalisation de l’internaute.
Dans les milieux de défense des droits numériques, Aaron Swartz s’est déjà fait un nom : adolescent, il participe à fabriquer la technologie RSS et travaille aux côtés du juriste Lawrence Lessig sur les Creative Commons… Peu à l’aise à Stanford, puis dans le monde de l’entreprise, qu’il découvre lorsque Reddit est vendu à Condé Nast, il se consacre bientôt principalement à la défense de droits numériques, parmi lesquels le libre accès au savoir scientifique.
Swartz s’engage contre le projet de loi SOPA aux États-Unis, qui aurait obligé un éditeur à suspendre un site internet dès la notification d’un ayant droit, il signe le Guerilla Open Access Manifesto, en faveur de l’ouverture des données, il s’engage dans des dizaines de mouvements… Jusqu’en octobre 2010, où il est arrêté.
Quelques semaines plus tôt, il a installé un ordinateur dans une salle non sécurisée du Massachusetts Institute of Technology (MIT), d’où il a téléchargé la quasi-totalité du catalogue d’articles scientifiques de l’éditeur JSTOR. Ce dernier n’engage pas de poursuites judiciaires : c’est la procureure qui s’en charge.
« À l’époque, le discours public sur l’appropriation abusive était très différent d’aujourd’hui, on disait que voler un film, c’était comme voler une bijouterie », rappelle le chercheur en sciences de l’information et de la communication Olivier Ertzscheid. « Le téléchargement illégal était beaucoup plus massif, pour la simple raison que les plateformes et toute l’offre légale que nous connaissons désormais n’existaient pas. »
Traumatisé par la procédure judiciaire, menacé de 35 ans d’emprisonnement, Aaron Swartz se suicide en janvier 2013. Il n’a que 26 ans. En hommage, des centaines de scientifiques publient leurs articles en ligne, sous le hashtag #pdftribute.
Pour autant, dans les années qui suivent, un autre projet de libre accès aux productions scientifiques, SciHub, créé par l’activiste Alexandra Elbakyan, sera lui aussi poursuivi en justice – cette fois-ci par l’éditeur Elsevier. Aujourd’hui, Sci-Hub reste contraint de changer régulièrement de noms de domaine pour rester accessible.
2020 : GPT, Gemini, Llama et les autres entraînés sur du public et du privé
Pendant cette période, Sam Altman lance un fonds d’investissement, puis devient Président de Y Combinator. En 2014, pendant huit jours, il est CEO de Reddit. L’année suivante, aux côtés d’Elon Musk et d’une dizaine d’autres personnes, il crée OpenAI. Les années qui suivent le verront gagner en visibilité à mesure que le projet évolue, d’ONG à société privée, de start-up de l’ombre au succès de Dall-E et ChatGPT.
Meta, Google, Microsoft prendront sa suite, publiant les uns après les autres leurs propres grands modèles de langages. Pour les entraîner, ces géants aspirent tout ce qu’ils trouvent en ligne. Parmi les jeux d’entraînement populaires, des audits découvriront des millions de vidéos récupérées sur YouTube et Netflix, des brevets, des livres qui ne sont pas tombés dans le domaine public, des données personnelles, des sous-titres de films et séries, des extraits de ces mêmes œuvres, des jeux vidéo, etc.
Pour Olivier Ertzscheid, ces pratiques s’expliquent de deux manières : les fabricants d’IA générative profitent de l’évolution des discours sur le téléchargement, d’une part. Mais ils pratiquent aussi « une logique de la terre brûlée : ils récupèrent tout ce qu’ils peuvent et se disent « On verra bien comme les ayant droits se positionnent ». »
« La technologie a évolué plus vite que le droit, estime de son côté la juriste spécialiste de la propriété intellectuelle Cristiana Sappa. Le droit d’auteur prend ses racines dans les pratiques des siècles passés, où les notions de partage rapide à coûts limités, de partage et de collaboration étaient beaucoup plus limités. » Pour elle, l’évolution rapide des infrastructures à conduit à « prendre des habitudes pas forcément respectueuses des droits, mais de plus en plus acceptées par la société. »
Sam Altman a lui-même admis que ChatGPT ne pourrait simplement pas exister sans l’usage de travaux soumis aux droits d’auteurs, sans être inquiété par le gouvernement états-unien. Des poursuites judiciaires ont bien été lancées contre OpenAI et les autres fabricant d’IA générative, que ce soit par des créateurs, des artistes et des médias.
Mais en France et en Europe, Cristiana Sappa souligne la difficulté de faire valoir ces droits, aussi bien « en termes de coûts financier, culturel, que psychologique… » Pour poursuivre les fabricants d’IA de manière efficace, souligne-t-elle, il vaut mieux « avoir l’assise d’une grosse entreprise, ou recourir aux class actions, dans les pays où c’est possible ». À défaut, certaines sociétés, dont des médias, ont préféré choisir de conclure des accords avec OpenAI et ses concurrents.
Ouverture trompeuse
Quid des travaux en libre accès, qu’Aaron Swartz s’escrimait à rendre accessible au plus grand nombre ? Qu’OpenAI et ses concurrents récupèrent ces éléments pour entraîner leurs systèmes, très bien : « le principe même, c’est d’ouvrir la connaissance », souligne Olivier Ertzscheid, sans droit de regard sur « l’usage qu’en fera ensuite le secteur privé ou pas ».
Pour autant, continue l’auteur de l’IA à l’assaut du Cyberespace, « ce n’est pas parce que les entreprises ont le droit de récupérer ces données que cela les exonère d’être transparente sur le type de données collectées, la granularité avec laquelle elles le font, les endroits où elles les captent. »
Or, comme l’écrivent David Gray Widder, Meredith Whittaker et Sarah Myers West, la rhétorique de l’ « ouverture », importée des milieux du libre et de l’open source dans lesquels gravitait Swartz, n’atténue pas la concentration du pouvoir à l’œuvre dans la création des systèmes d’IA qui défraient actuellement la chronique.
Et ces derniers de conclure : « la poursuite du modèle d’IA le plus ouvert ne mènera pas, à elle seule, à un écosystème plus ouvert, plus responsable et plus démocratique. » Pour y parvenir, les trois auteurs appellent plutôt à l’usage de régulations déjà existante (lutte contre les pratiques anticoncurrentielles, protection des données) ainsi qu’à la création d’espace où pouvoir demander : « pourquoi l’IA » ? Où, pour revenir à notre sujet : pourquoi ces captations de données, publiques et privées ?