Rechercher

Les agents conversationnels menacent-ils la concurrence?

Basés sur l’intelligence artificielle, les agents conversationnels comme ChatGPT représentent indéniablement une valeur ajoutée pour la société, mais ils posent aussi des défis sur le front de la concurrence.
L’Union européenne entend réguler le marché de l’intelligence artificielle. Un robot vêtu d’un sweat à capuche. (Image: Keystone)

Les récentes évolutions dans le domaine de l’intelligence artificielle (IA) générative, c’est-à-dire capable de produire ses propres contenus (voir les définitions dans l’encadré), offrent des possibilités inédites en matière de numérisation et d’automatisation de processus quotidiens. En parallèle, elles suscitent aussi des inquiétudes. Des voix se sont déjà élevées de diverses parts pour demander un moratoire dans le développement de l’intelligence artificielle, par crainte que celle-ci atteigne un stade où elle ne serait plus comprise par l’être humain et échapperait à son contrôle. On prête cependant moins d’attention à la concurrence que se livrent les géants d’Internet pour dominer le marché de l’IA, alors que les vainqueurs de cette course auront probablement une influence décisive sur notre vie quotidienne.

Position de force des fournisseurs de modèles de base

ChatGPT, un agent conversationnel (ou «chatbot») développé par l’entreprise américaine OpenAI, interprète des requêtes humaines en langage naturel (les «prompts») et y répond grâce à l’intelligence artificielle. Il se fonde sur le modèle de langage GPT, un modèle de base (ou de fondation) ayant été entraîné avec de grandes quantités de textes et pouvant être adapté ensuite pour diverses applications. Microsoft, par exemple, travaille actuellement à l’intégration de GPT dans son pack Office, l’objectif étant d’automatiser la production de documents et de présentations ou l’analyse de données à partir de requêtes humaines en langage naturel[1]. Quant à Duolingo, un service en ligne d’apprentissage linguistique, il utilise GPT pour simuler des conversations dans une langue étrangère.

L’élaboration d’un modèle de base concurrentiel n’est pas à la portée de tous. Il faut pour cela disposer d’ensembles complets de données, ce dont seulement quelques grandes entreprises peuvent se prévaloir, notamment Microsoft et Google, les seules en Occident à extraire et à stocker de manière systématique les informations mises en ligne sur des sites Internet («web scraping»). De plus, l’entraînement d’un modèle de base nécessite des puissances de calcul considérables, qui sont surtout l’apanage des services en nuage tels que Microsoft Azure, Google Cloud et Amazon Webservices.

Sur ce plan, on constate qu’il existe un parallèle évident avec d’autres marchés du numérique, dont celui des systèmes d’exploitation, car le développement et l’exploitation d’un modèle de base se caractérisent eux aussi par d’importants effets d’échelle et de réseau. Il faut donc s’attendre à ce que seuls quelques rares fournisseurs arrivent à s’établir sur le marché, tandis que la plupart des entreprises utiliseront des modèles de base sous licence qu’elles adapteront à leurs propres applications.

La valeur des données

Véritable mine d’or du XXIe siècle, les données gagnent encore en importance avec l’IA générative. Quand on dispose déjà de vastes jeux de données pour alimenter un modèle de base, on détient un double avantage, car les requêtes des utilisateurs qui viennent ensuite s’y intégrer permettent d’améliorer en permanence ce modèle. Le perfectionnement de l’IA grâce aux retours des humains a représenté une étape décisive dans le développement de GPT. En effet, pour simplifier, on peut dire que ce modèle d’IA apprend à partir de l’évaluation de ses réponses par des interlocuteurs humains.

L’histoire récente montre combien l’accès aux données peut être décisif pour la concurrence. En juin 2022, OpenAI mettait en ligne le logiciel «Dall-E», capable de générer des images réalistes à partir des instructions d’un utilisateur. Deux mois plus tard, le programme à code source ouvert «Stable Diffusion» arrivait sur le marché. Fonctionnant comme « Dall-E » et générant également des visuels, il n’a pu être développé que grâce aux vastes séries de données d’images auxquelles ses programmateurs ont eu accès gratuitement pour entraîner leur modèle jusqu’au stade de la mise sur le marché[2]. On voit bien là que, dans le cadre du développement de l’IA générative, les données constituent une sorte de «facilité essentielle», terme désignant une infrastructure indispensable pour la fourniture d’une prestation. De fait, sans accès à des données appropriées à des conditions raisonnables, il est impossible de pénétrer le marché. C’est uniquement parce qu’ils avaient à leur disposition des données d’images (gratuites) que des concurrents ont pu mettre au point d’autres applications IA de production de visuels.

Des plateformes avec de puissants effets de réseau

OpenAI a réussi à développer un modèle de base se situant au début de la chaîne de valeur, mais aussi à créer, avec ChatGPT, un produit destiné aux utilisateurs finaux. Actuellement, il existe déjà pour ce dernier douze modules d’extension permettant d’avoir accès à d’autres services, tels que la planification de voyages sur la plateforme de réservation Expedia. Les agents conversationnels comme ChatGPT présentent donc des similitudes avec les fournisseurs d’applications: certains modules d’extension sont utilisés comme des applications, mais, pour y accéder, on passe toujours par l’agent conversationnel en question. Il en résulte de puissants effets de réseau car, plus il y a de modules d’extension, plus il devient intéressant de consulter ou de proposer des services via une seule interface (telle que ChatGPT). En outre, l’utilisation accrue du même agent conversationnel assure son alimentation en données supplémentaires et permet donc une amélioration continue de l’algorithme[3].

Nouvelles règles du jeu pour les grandes entreprises technologiques

S’agissant des grandes entreprises technologiques, l’expérience a montré que le droit en vigueur ne suffisait pas toujours à assurer une protection efficace de la concurrence sur les marchés du numérique, où s’observe une nette tendance à la domination par une poignée d’entreprises. Les évolutions sont si rapides que, bien souvent, les décisions prises dans des cas relevant du droit des cartels interviennent beaucoup trop tard. Forte de ce constat, l’Union européenne (UE) a décidé de fixer des règles du jeu pour les marchés numériques en promulguant une législation sur les services numériques et une législation sur les marchés numériques, lesquelles prévoient notamment des exigences très étendues en matière de transparence et de conduite à tenir pour les grandes entreprises technologiques. En outre, dans le domaine de l’intelligence artificielle, l’UE est en train d’examiner le Règlement sur l’IA ainsi que le Règlement sur les données. Le projet de texte élaboré pour ce dernier, en particulier, impose aux entreprises de vastes obligations de partage des données.

En Suisse, il n’existe à ce jour aucune réglementation de cette nature. On sait que le Département fédéral de l’environnement, des transports, de l’énergie et de la communication (Detec) doit élaborer un projet concernant la réglementation des grandes plateformes de communication d’ici mars 2024, mais sans en connaître encore la teneur exacte. Les premières déclarations du Detec donnent toutefois à penser qu’il n’est pas prévu d’y intégrer des règles à observer par les grandes entreprises technologiques en matière de concurrence. Certes, on peut contester le bien-fondé d’une réglementation aussi sophistiquée que celle mise en œuvre actuellement par l’UE, mais il est certain que, dans l’univers de l’IA générative, les données joueront de plus en plus un rôle de «facilité essentielle». C’est pourquoi, en Suisse aussi, il serait bon de ne pas totalement ignorer la question de l’accès aux données.

  1. Microsoft, qui détient une participation de 49% dans OpenAI, a mis gratuitement à disposition sur sa plateforme en nuage Azure les puissances de calcul nécessaires pour l’entraînement de GPT. []
  2. C’est l’organisation à but non lucratif Large-scale Artificial Intelligence Open Network (LAION) qui a collecté ces données par web scraping puis qui les a publiées gratuitement. []
  3. Depuis avril 2023, les utilisateurs peuvent accepter ou refuser la mise à disposition de leurs conversations avec ChatGPT aux fins de l’entraînement consécutif de l’agent conversationnel. []

Proposition de citation: Nicolas Eschenbaum ; Michael Funk ; Samuel Rutz (2023). Les agents conversationnels menacent-ils la concurrence. La Vie économique, 11 juillet.

Définitions

Modèle de base ou modèle de fondation: modèle d’IA pré-entraîné servant de point de départ pour le développement de modèles d’IA spécifiques. Il est généralement entraîné à partir d’énormes quantités de données afin de pouvoir être utilisé pour de nombreuses applications différentes.

GPT: abréviation de « Generative Pre-trained Transformer » (ou transformeur génératif pré-entraîné), une architecture de réseau neuronal développée par OpenAI pour le traitement du langage naturel, comme la rédaction, la traduction ou la synthèse de textes. La dernière version en date est GPT-4.

ChatGPT: un modèle de langage développé par OpenAI sur la base de l’architecture GPT. Il a été conçu pour fournir des réponses de type humain à des requêtes soumises en langage naturel (« prompts »).

IA générative: une forme d’intelligence artificielle spécifique, pouvant produire de nouveaux contenus (images, musique ou texte), au lieu de seulement restituer des données enregistrées.

Fine-tuning: processus consistant à entraîner les paramètres d’un modèle de base avec un jeu de données restreint, propre à un domaine, avec pour objectif d’affiner le modèle de base et de le spécialiser dans une tâche en particulier.