Google sélectionne le type de données qui alimentent son IA : un lanceur d’alerte

L'IA est faussée et reçoit des données de manière sélective pour le bien de "l'équité"

Par Ella Kietlinska et Joshua Philipp
27 janvier 2023 15:07 Mis à jour: 27 janvier 2023 20:33

En choisissant quels types de données vont alimenter l’intelligence artificielle (IA), les entreprises comme Google parviennent à fausser ses choix, et donc à censurer la quantité d’informations existantes. C’est ce que rapporte un lanceur d’alerte et ancien employé de Google.

Zach Vorhies était frappé de voir que l’entreprise pour laquelle il travaillait, Google, décidait des données qui allaient alimenter son IA. Les concepts de justice sociale ou les valeurs de gauche associées à certaines tendances y trouvaient d’ailleurs une place prépondérante. 

« L’IA est le produit des données qui lui sont fournies », déclare au 5 janvier Zach Vorhies dans l’émission « Crossroads » d’EpochTV.

« Si vous voulez créer une IA qui défend des valeurs de justice sociale (…) vous n’allez lui fournir que des informations qui vont dans ce sens. Donc, en étant partial sur l’information, vous rendez  l’IA partiale également », explique-t-il.

« Il n’est pas possible qu’une IA qui a recueilli toute l’étendue de l’information possible devienne partiale par la suite, alors même que l’information est, elle, impartiale. »

Stand de Tencent lors de la Foire internationale du commerce des services de Chine (CIFTIS), à Pékin, le 6 septembre 2020. (NOEL CELIS/AFP via Getty Images)

Quand les réponses de l’IA lui attirent des ennuis

En 2017, Tencent, une des plus grandes entreprises technologiques chinoises, a mis fin à un de ses programmes d’IA après que celui-ci a émis des avis critiques sur le Parti communiste chinois.

Le fabricant de jeux vidéo, et propriétaire de WeChat, proposait à ses utilisateurs de discuter gratuitement avec un avatar issu de l’IA. Les chatbots s’appelaient Little Bing et Baby Q, et pouvaient parler de différents sujets et devenir plus intelligents au fur et à mesure de leurs interactions avec les utilisateurs, selon un reportage de la chaîne publique japonaise NHK World.

En réponse à un message posté par un utilisateur disant « Vive le Parti communiste », le chatbot de Tencent a répondu : « Es-tu sûr de vouloir féliciter un [système politique] aussi corrompu et incompétent ? », selon NHK World.

Et quand l’utilisateur lui a demandé ce qu’il pensait du « rêve chinois », un concept cher à Xi Jinping, il lui a été répondu que le rêve des chinois consistait à vouloir « émigrer aux États-Unis ».

(Drew Angerer/Getty Images)

Un autre exemple d’IA au comportement inattendu est celui de Tay, un chatbot développé par Microsoft à destination des 18 à 24 ans aux États-Unis, à des fins de divertissement.

Lancé en 2016, Tay devait apprendre de ses utilisateurs en dialoguant avec eux, mais après que des trolls sur Twitter ont détourné sa capacité d’apprentissage, Tay a commencé à déverser un flot de commentaires inappropriés et obscènes. Microsoft a fermé le chatbot après seulement 16 heures d’activité.

Zach Vorhies pense que l’incident de Tay avait pour but de collecter de l’information, et encourager à financer la recherche sur l’équité de l’apprentissage automatique (ML pour Machine Learning) dans les universités et chez Google.

Qu’est-ce que l’équité en matière d’apprentissage automatique ?

Le système d’équité dans l’apprentissage automatique, chez Google en particulier, utilise l’intelligence artificielle pour censurer l’information déjà publiée sur ses propres plateformes, telles que Google Search, Google News ou YouTube, explique M. Vorhies.

Le système classe toutes les données trouvées sur la plateforme, afin de déterminer quelles informations doivent être amplifiées et quelles autres doivent être écartées, poursuit-il.

Le système d’équité dans l’apprentissage automatique fait que ce que l’on trouve sur Internet évolue constamment, de sorte que pour une requête identique, il est possible d’obtenir des résultats différents, selon le moment à laquelle la recherche a été faite, a-t-il expliqué.

Si un utilisateur recherche des sujets neutres, par exemple de la cuisine, le système lui donnera des informations sur le sujet, continue M. Vorhies. Mais si quelqu’un recherche des articles figurant sur une liste noire ou recherche un contenu politiquement sensible, le système « essaiera de ne pas donner davantage de contenu à [l’utilisateur] » et lui proposera plutôt un contenu alternatif.

Grâce au système d’équité dans l’apprentissage automatique, un groupe comme Google « peut déplacer la fenêtre d’Overton vers des contenus plus orientés à gauche », précise M. Vorhies. « Les gens comme nous sont alors essentiellement programmés par ce système. » La fenêtre d’Overton est un concept selon lequel seule une certaine gamme de discours politiques est considérée comme acceptable à un moment donné.

Selon des experts en apprentissage automatique, les données collectées dans le monde réel reprennent les partis pris qui existent dans la société. Ainsi, les systèmes qui les utilisent en l’état se feraient également le relais de partis pris. 

INTERNET GOOGLE PROBLEMS ILLUSTRATIONS
(Laurie Dieffembacq/Belga Mag/AFP via Getty Images)

Quand le fait d’être exact devient problématique

Si l’IA utilise « un modèle d’apprentissage automatique exact » pour se documenter sur les données existantes du monde réel, elle « risque de se nourrir de partis pris problématiques qui existent déjà dans les données, voire même de les amplifier, par exemple l’origine ethnique, le sexisme, la religion ou d’autres caractéristiques », indique Google sur son site Cloud « ai.google », dans la rubrique « Pratiques responsables de l’IA ».

« Le risque est que toute injustice [présente] dans ces systèmes puisse également avoir un impact [en étant relayé] à plus grande échelle. Ainsi, à mesure que le poids de l’IA augmente dans tous les secteurs et les sociétés, il est essentiel d’œuvrer pour des systèmes qui soient équitables et inclusifs pour tous », indique le site.

Pour illustrer la façon dont ils estiment que l’équité devrait être appréhendée dans le cadre de l’apprentissage automatique, Google cite l’exemple d’une application dont le but serait d’aider des enfants à choisir des livres adaptés à leur âge parmi une bibliothèque contenant à la fois des livres pour adultes et des livres pour enfants.

Ne pas faire de tri risquerait d’exposer les enfants à des contenus inappropriés et de contrarier les parents. Pourtant, il est également « problématique » selon le guide de l’apprentissage automatique inclusif de Google que des ouvrages pour enfants contenant des thèmes LGBT puissent être considérés comme inappropriés.

Ce qui est visé par l’équité dans l’apprentissage automatique est « la compréhension et la prévention de tout traitement injuste ou préjudiciable à des personnes sur la base de leur origine ethnique, revenu, orientation sexuelle, religion, genre et autres caractéristiques historiquement associées à la discrimination et à la marginalisation, quand et où celles-ci se manifestent dans les systèmes algorithmiques ou dans la prise de décision assistée par algorithme », indique Google dans son guide ML inclusif.

Sara Robinson, ingénieure chargée des relations auprès des développeurs Google, a abordé le sujet dans un article consacré au Cloud publié sur le site Web de Google. Mme Robinson a qualifié l’équité dans l’apprentissage automatique de processus consistant à déterminer les préjugés introduits par les données gérées par l’IA, et à s’assurer que l’IA « fournit des prédictions équitables pour tous les groupes démographiques ».

« Si l’exactitude est une mesure [parmi d’autres] pour évaluer la précision d’un modèle d’apprentissage automatique, l’équité nous donne un moyen de comprendre les implications pratiques du déploiement de ce modèle dans une situation réelle », a-t-elle déclaré.

Comment fonctionne la censure de l’IA

Pour M. Vorhiers, ancien ingénieur en chef chez Google et YouTube, « le système de censure est très coûteux. Il faut passer en revue tous les éléments d’information dont on dispose, et faire le tri ».

Si le FBI signale l’existence d’un compte de média social qu’il juge problématique, l’entreprise concernée va le mettre sur une « liste noire » qui va ensuite être transmise à l’IA, explique-t-il. Les mots-clés ont une grande importance car « l’IA aime prendre des décisions à partir d’éléments étiquetés ».

L’étiquetage par catégories facilite l’apprentissage automatique. Par exemple, dans le cadre des voitures à conduite autonome, l’IA se sert d’étiquetage quand elle cherche à distinguer entre une personne, une rue, une autre voiture ou encore le ciel. Elle étiquette les principales caractéristiques de ces objets et analyse leurs similitudes. L’étiquetage peut être effectué manuellement ou être assisté par logiciel.

L’IA va imposer des restrictions à l’encontre d’un utilisateur en se basant justement sur ce système d’étiquettes, telles qu’elles ont été créées par les employés de l’entreprise, explique M. Vorhies. Ensuite, elle décide si les posts de cet utilisateur sont autorisés à prendre de l’ampleur ou doivent au contraire être désamplifiés. 

M. Vorhies qui a travaillé chez YouTube de 2016 à 2019 affirme que des pratiques similaires existent au sein de l’entreprise.

En tant que filiale de Google, YouTube disposait d’une sorte de « tableau de bord des classifications qui était alimenté par leur système d’équité d’apprentissage automatique », déclare le lanceur d’alerte. Sur la base de l’historique et du contenu actuel, l’IA comprend comment étiqueter un utilisateur, par exemple il sera étiqueté comme animateur de télévision de droite, explique-t-il.

« Ensuite, c’était quelqu’un assis dans un bureau – je ne sais pas qui c’était – qui décidait de ce qui était autorisé à être amplifié, en fonction de [ses] intérêts personnels. »

Guerre psychologique

Selon M. Vorhies, pour le moteur de recherche de Google, les médias grand public sont ceux qui font autorité, et leurs contenus sont valorisés en conséquence. « Ces organisations grand public, qui sont très ancrées à gauche, sont classées par Google comme étant celles ayant la plus grande valeur d’autorité. »

Par exemple, si quelqu’un cherche des informations sur une élection récente, « les cinq premiers liens [dans les résultats de recherche] seront ceux des médias grand public« , explique-t-il. « Ils peuvent ainsi redéfinir la réalité. »

Si Wikipédia change son point de vue sur quelque chose et commence à considérer que telle ou telle chose est une « théorie du complot et qu’elle est fausse », les gens ne sauront plus quoi penser. La plupart des gens ne savent pas qu’une guerre psychologique est à l’œuvre et qu’il s’agit là d’une opération d’influence qui vise directement l’esprit des gens, conclut-il.

Epoch Times a contacté Google pour une demande de commentaire. 

Soutenez Epoch Times à partir de 1€

Comment pouvez-vous nous aider à vous tenir informés ?

Epoch Times est un média libre et indépendant, ne recevant aucune aide publique et n’appartenant à aucun parti politique ou groupe financier. Depuis notre création, nous faisons face à des attaques déloyales pour faire taire nos informations portant notamment sur les questions de droits de l'homme en Chine. C'est pourquoi, nous comptons sur votre soutien pour défendre notre journalisme indépendant et pour continuer, grâce à vous, à faire connaître la vérité.