Nous avons présenté dans la première partie de ce dossier, le concept de « bouillie d’IA » et ses effets sur la qualité des contenus numériques. Nous avons également expliqué le phénomène du Model Collapse. Un effondrement progressif des modèles d’IA lorsqu’ils s’entraînent sur leurs propres productions. Mais, au-delà des théories, quels sont les risques qu’encourt le web. Et comment les acteurs majeurs du web et les régulateurs tentent-ils de riposter ?
Bouillie d’IA, des risques pour l’accès à l’information
L’un des dangers majeurs de cette « bouillie » est la saturation d’Internet. Les moteurs de recherche et les réseaux sociaux se retrouvent noyés dans un flux constant de contenus artificiels. Ce qui rend plus difficile l’accès à des informations fiables et pertinentes. Il constitue déjà une entorse soulevée par les professionnels des médias, notamment les fact checkeurs.
Les médias de vérification d’informations à l’instar de Fullfact.org tirent déjà la sonnette d’alarme. L’organisation a notamment documenté plusieurs aperçus générés par l’IA lors de recherches sur Google Lens comme étant des fausses informations. Le problème est donc concret. Cette situation fait craindre une désinformation à grande échelle induisant les internautes en erreur. «Les aperçus de l’IA des recherches avec Google Lens donnent aux utilisateurs des informations fausses et trompeuses sur certaines images largement partagées sur les réseaux sociaux.», indique Fullfact.
Cette inflation numérique risque également de réduire la confiance dans l’IA. Plus les utilisateurs rencontreront des contenus médiocres ou trompeurs, plus ils auront tendance à se méfier des outils qui les génèrent. Ce cercle vicieux pourrait freiner l’adoption de technologies pourtant utiles dans des domaines comme la santé, l’éducation ou l’agriculture. Dans une enquête publiée en février par Le Figaro, l’artiste Rachel Dufossé exprime ses craintes. «Les référentiels d’images se dégradent de jour en jour sur Google et sur Pinterest. (…) En tant qu’artiste, j’ai peur de ne plus avoir accès à des ressources fiables sur internet.»
Prise de conscience chez les géants du web
Google par exemple est déjà conscient des risques liés aux contenus générés par l’IA. C’est en ce sens qu’elle a mis au point le concept EEAT (Expertise, Expérience, Autorité, Fiabilité en français). Il s’agit d’un ensemble d’indicateurs qui l’aident Google à déterminer si un contenu est digne de confiance, crédible, et pertinent pour l’utilisateur.
L’entreprise a aussi mis à jour ses algorithmes à partir de mars 2024. Il s’agit d’ « explicitement (…) pénaliser les pratiques de génération massive de contenus à des fins d’optimisation du référencement naturel (SEO) », explique anjuna.fr. L’objectif étant de rétrograder les contenus générés automatiquement au dernier rang des résultats de recherches et promouvoir les contenus plus humains.
En effet, l’idée des géants du web n’est pas de suspendre l’usage de l’IA. Mais de plutôt mieux contrôler son usage par le grand public. D’après Google, l’IA est un outil qui ne remplace pas l’originalité et la valeur ajoutée humaine.
Malgré des solutions technologiques pertinentes…
L’avenir de l’écosystème numérique dépendra de cette capacité à encadrer la production artificielle et à préserver un espace informationnel de qualité. Face au constat, le débat se recentre autour de la régulation. Les Etats, les chercheurs et les grandes plateformes travaillent sur des approches pour contrer la dilution de l’information. Voici quelques unes :
- La traçabilité des contenus : des initiatives comme Content Credentials d’Adobe ou Coalition for Content Provenance and Authenticity (C2PA) développent des systèmes visant à indiquer si une image ou un texte a été généré artificiellement.
- La création de bases de données “propres” : certaines entreprises investissent dans la constitution de corpus fiables, uniquement composés de données vérifiées, pour entraîner leurs modèles.
- L’IA pour traquer l’IA : Sur Internet, on assiste à un florilège de nouveaux outils d’analyse permettant d’identifier les textes ou images produits par IA. D’une part, certains de ces outils permettent d’humaniser les contenus IA détectés. D’autre part, les géants du web utilisent des outils permettant d’éviter que des contenus dilués ne se confondent avec des sources authentiques.
… replacer l’humain au centre de l’équation
Malgré tout, la technologie à elle seule ne peut pas tout. La nécessité d’un encadrement réglementaire et la vigilance des utilisateurs, des journalistes et des institutions s’impose.
- Encadrement légal : l’Union européenne, avec l’AI Act, prévoit d’imposer des obligations de transparence sur les contenus générés.
- Pratiques responsables : certains sites limitent volontairement le recours aux IA génératives pour préserver la qualité éditoriale. Wikipedia, par exemple, encourage ses contributeurs à vérifier systématiquement toute information avant publication.
- Éducation numérique : former les internautes à identifier les signaux d’un contenu artificiel. Il s’agit d’un enjeu central pour préserver l’esprit critique.
L’intelligence artificielle générative peut être un outil puissant, mais son usage massif non encadré risque d’appauvrir le web. La clé réside donc dans un équilibre. Utiliser l’IA pour gagner en efficacité, tout en gardant un contrôle humain et une exigence de qualité. Préserver l’intégrité de l’information, c’est aussi préserver la confiance des internautes dans le numérique.
