Un oeil ouvert sur la tech

Un PressGPT est-il possible ?

Alors que ChatGPT annonce un changement profond dans la façon dont la presse va interagir avec le public, ne serait-il pas l'occasion de créer un PressGPT à l'échelle européenne pour maitriser l'IA générative au sein des rédactions ?

Les particularités du secteur de la presse exigent que nous gardions un esprit ouvert et que nous regardions d’autres solutions que celles commercialement disponibles. Quelles sont, en premier lieu, les contraintes auxquelles font face les éditeurs et services de presse ? Depuis quelques mois, nombre d’entre eux demandent des compensations financières aux grands acteurs de l’IA comme OpenAI pour l’utilisation des articles dans les modèles d’entrainement. La dernière pétition en date réunit l’AFP, Gannet, Getty images, et quelques autres pour exiger la mise en place de garde-fous contre la dégradation des modèles d’affaires causés par l’essor des IA Génératives.

L’objectif est donc double :

  • Le premier de nature légale consiste à faire respecter la propriété intellectuelle des groupes de presse.
  • Le second, commercial, demande une compensation financière pour l’exploitation — jusque là non consenti — qui est faite des contenus.

Sur le plan légal, sans entrer dans le détail, car ce n’est pas le propos de ce document, il sera difficile pour les titres de presse de faire retirer les contenus aspirés des modèles d’ores et déjà entrainés. Impossible par exemple de faire retirer un article du monde en particulier de GPT-4. Comme les LLMs ne sont pas des bases de données de type « catalogue » avec une claire référence, identifiée et stockée quelque part sur un serveur, il sera également difficile d’argumenter la violation directe de propriété intellectuelle. Ce qui pourra être invoqué, c’est l’absence de consentement auquel s’oppose la notion de « fair use », c’est-à-dire la capacité, dans certaines conditions par exemple, dans le cadre de recherches universitaires, d’exploiter un contenu sans en avoir à payer les droits. Bref, pour tous les contenus rédigés avant la création du modèle, difficile de demander quoi que ce soit (même si la bataille doit être menée, ne serait-ce que pour le principe).

Sur le plan commercial, la demande de compensation peut paraitre légitime, mais sans décision judiciaire, aucun droit ne sera ouvert. Un accord peut survenir entre les éditeurs et les fournisseurs de service (et c’est ce qui est certainement visé par les éditeurs, une négociation moins couteuse), mais il sera insatisfaisant au mieux puisqu’il dépendra de la bonne volonté des OpenAI et consort. Leur stratégie consiste davantage à offrir des services et des formations pour renforcer la dépendance des utilisateurs (dans ce cas la presse) à leurs services, que de compenser correctement les détenteurs de droits. Une compensation volontaire ouvrirait la porte à toutes les réclamations et coulerait un business qui jusque là démarre fort, mais est loin d’être bénéficiaire. Bref, sur ce point aussi, le destin économique des médias n’est pas prometteur d’autant que la tendance naturelle des publications vise à accepter les deals proposés pour faire rentrer du cash dans la machine.

Une solution hybride Open source/propriétaire “fine tuné”

Donc comment faire pour reprendre la main et transformer ce qui semble être une catastrophe à venir en moindre mal ? Tout d’abord bien questionner son usage des SIA et voir dans quelle mesure les implémenter de façon éthique et responsable. Ce manuel est là pour vous aider à vous poser un certain nombre de questions en ce sens. Une autre solution consiste à reprendre la main sur le plan éthique, légal, technologique et économique.

Concrètement, aujourd’hui, ChatGPT, Claude ou d’autres modèles propriétaires sont des modèles très généraux, entrainés sur un nombre de paramètres colossal qui diluent les spécialisations par secteurs. Certains chercheurs et praticiens utilisent un modèle hybride (Llama), dont une partie open source a été mise a disposition par Meta mais dont le gros du model repose sur une base de données propriétaire.  Ce modèle est affiné à l’aide d’un corpus thématiquement plus étroit, mais disposant d’une profondeur et d’une richesse plus grande. Cela permet par exemple d’entrainer un modèle à parler le français du XVIIe siècle parfaitement et de formuler les phrases avec la grammaire et la syntaxe de l’époque. Cette spécialisation permet de s’assurer que le modèle répond à des critères éthiques précis, dans un contexte légal particulier (et l’AI Act en préparation va justement créer ce contexte légal unique), à l’aide d’une technologie partiellement non propriétaire, plus ouverte, facilement implémentable et maintenue par une large communauté, afin de développer de nouvelles sources de revenus jusque là inédites pour la presse.

Dès lors, il est facile de comprendre l’intérêt de défendre la constitution d’un corpus spécialisé sur la presse. Celui-ci présenterait un certain nombre d’atouts qu’il est bon d’ores et déjà de considérer.

L’adoption d’un modèle open source et son « fine tuning » (entrainement fin) à partir d’archives répondrait en grande partie aux quatre objectifs évoqués plus haut (éthique, légal, technologique et économique). Il permettrait aux médias de se forger un outil complètement personnalisé, dont la conception initiale pourrait répondre au maximum aux critères éthiques du média. Il permettrait également de ne pas rater la vague de l’IA tout en restant maitre de son destin technologique, voire même, de se payer le luxe de refuser l’indexation de ses contenus aux grands acteurs pour éviter le piratage en règle des contenus et de proposer une API payante pour tous les services qui en aurait besoin et ainsi développer un modèle économique plus florissant. À l’échelle d’un titre de presse, on voit de suite les avantages, mais si on imagine un effort plus collectif, à l’échelle européenne, alors c’est d’un formidable outil dont la presse peut s’emparer. Le passage à l’échelle européenne permet en effet un certain nombre de choses inatteignable pour une publication nationale. 

À travers une fondation, un organisme à but non lucratif dont le conseil d’administration serait composé des membres de la coalition de médias, il serait possible de fabriquer un modèle spécifique, un PressGPT capable d’une plus grande précision factuelle sur une grande période (au moins 100 ans si on considère les plus anciens titres de presse), et ce dans un grand nombre de langues différentes dont les nuances culturelles seraient respectées.

Il ne s’agit pas ici de rentrer dans les détails techniques de la mise en œuvre de tels chantiers, mais plutôt de souligner l’opportunité qu’un PressGPT représente et de souligner l’urgence d’inclure ces questions dans la roadmap des prochains mois. 

Partager cet article
URL partageable
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lire la suite
Abonnez-vous à la newsletter
Ouvrez les yeux sur la tech !