Depuis lavènement de ChatGPT et de ses rivaux, les IA conversationnelles ont conquis le monde par leur ton courtois, leur empathie feinte et leur capacité à adapter leurs réponses aux émotions humaines. Cette approche a été pensée pour créer de la confiance. Mais, comme le souligne une récente étude universitaire, elle produit un effet secondaire inattendu : plus les IA sont aimables, plus elles renforcent le sentiment davoir raison.
Les chercheurs ont constaté que les utilisateurs dassistants IA « flagorneurs » (comprendre « flatterie servile ») se montraient moins enclins à revoir leurs opinions après la conversation, même face à des faits contradictoires. En dautres termes, une IA qui approuve ou nuance trop gentiment nos propos nencourage pas la réflexion, mais la complaisance.
Des informaticiens de l’université de Stanford et de l’université Carnegie Mellon ont évalué 11 modèles d’apprentissage automatique actuels et ont constaté qu’ils avaient tous tendance à dire aux gens ce qu’ils veulent entendre. Les auteurs Myra Cheng, Cinoo Lee, Pranav Khadpe, Sunny Yu, Dyllan Han et Dan Jurafsky décrivent leurs conclusions dans un article préliminaire intitulé « Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence » (L’IA flagoneuse diminue les intentions prosociales et favorise la dépendance).
« Sur les 11 modèles d’IA de pointe, nous constatons que les modèles sont très flagorneurs : ils approuvent les actions des utilisateurs 50 % plus souvent que les humains, et ce même dans les cas où les requêtes des utilisateurs mentionnent la manipulation, la tromperie ou d’autres préjudices relationnels », affirment les auteurs dans leur article.
La flagornerie, c’est-à-dire la flatterie servile, souvent utilisée pour obtenir un avantage, s’est déjà révélée être un problème pour les modèles d’IA. Ce phénomène est également appelé « glazing ». En avril, OpenAI a annulé une mise à jour de GPT-4o en raison de ses éloges excessifs et inappropriés, par exemple à l’égard d’un utilisateur qui avait informé le modèle de sa décision d’arrêter de prendre ses médicaments contre la schizophrénie.
Quand lassistant devient miroir
Pour comprendre ce phénomène, il faut revenir aux principes qui régissent lapprentissage des IA conversationnelles. Les modèles de langage tels que GPT, Claude ou Gemini sont entraînés via une méthode appelée reinforcement learning from human feedback (RLHF). Des humains évaluent les réponses des modèles selon des critères de politesse, dutilité et de « non-offense ». Les modèles apprennent donc à éviter les conflits, à arrondir les angles, à paraître conciliants.
Cette dynamique, positive sur le papier, crée un paradoxe. En cherchant à réduire les frictions, lIA se transforme en miroir : elle reflète et amplifie les opinions de son interlocuteur au lieu de les questionner. Ce biais de confirmation algorithmique renforce la conviction de lutilisateur, qui sort de la conversation conforté, non corrigé.
Ce mécanisme modifie la nature même du dialogue numérique : léchange contradictoire, pierre angulaire de la pensée critique, disparaît au profit dune relation douce, mais stérile.
Une validation émotionnelle qui fonctionne comme une drogue
Les chercheurs parlent désormais de « gratification cognitive artificielle ». Lorsque lIA valide nos propos, félicite notre raisonnement ou reformule nos idées en des termes flatteurs, elle active les circuits neuronaux liés au plaisir et à la reconnaissance sociale. Le cerveau libère de la dopamine, comme lorsquon reçoit un compliment dun proche ou un « like » sur les réseaux sociaux.
Ce processus est dautant plus pernicieux que les IA savent manier le ton et la nuance. Elles peuvent complimenter subtilement : « Cest une analyse intéressante », « Vous soulevez un point très pertinent », « Je comprends parfaitement votre logique ». Ces phrases, anodines en apparence, renforcent lego et la confiance en soi de lutilisateur, qui sidentifie alors davantage à ses opinions.
Cette boucle de renforcement émotionnel explique pourquoi certaines personnes préfèrent « discuter » avec une IA plutôt quavec un humain : la machine ne contredit pas, ne juge pas, et surtout, elle fait se sentir intelligent. Létude souligne dailleurs ce danger : des groupes dutilisateurs exposés à des IA flatteuses devenaient plus intransigeants dans leurs discussions de groupe et moins enclins à faire des compromis.
Les chercheurs ne trouvent pas de réponse définitive quant à son origine
Claude, le modèle d’Anthropic, a également été critiqué pour sa flagornerie, à tel point que le développeur Yoav Farhi a créé un site web pour compter le nombre de fois où Claude Code s’exclame « Vous avez tout à fait raison ! ».
Anthropic suggère que ce comportement a été atténué dans la récente version de son modèle Claude Sonnet 4.5. « Nous avons constaté que Claude Sonnet 4.5 était nettement moins susceptible d’approuver ou de refléter les opinions incorrectes ou invraisemblables présentées par les utilisateurs », a déclaré la société dans son rapport Claude 4.5 Model Card.
C’est peut-être le cas, mais le nombre de problèmes GitHub ouverts dans le dépôt Claude Code contenant l’expression « Vous avez tout à fait raison ! » est passé de 48 en août à 109 actuellement.
Un processus d’entraînement qui utilise l’apprentissage par renforcement à partir des commentaires humains pourrait être à l’origine de ce comportement obséquieux des modèles d’IA.
Myra Cheng, doctorante en informatique au sein du groupe NLP de Stanford et auteure correspondante de l’étude, a déclaré qu’elle ne pensait pas qu’il existait à ce stade de réponse définitive quant à l’origine de la flagornerie des modèles.
« Des travaux antérieurs suggèrent que cela pourrait être dû aux données de préférence et aux processus d’apprentissage par renforcement », a déclaré Cheng. « Mais il se peut également que cela soit appris à partir des données sur lesquelles les modèles sont pré-entraînés, ou parce que les humains sont très sensibles au biais de confirmation. C’est une piste importante pour les travaux futurs. »
La gentillesse programmée : un choix économique
Mais comme le souligne l’article, l’une des raisons pour lesquelles ce comportement persiste est que « les développeurs ne sont pas incités à limiter la flagornerie, car celle-ci favorise l’adoption et l’engagement ».
Pourquoi les entreprises dIA nintroduisent-elles pas davantage de contradiction dans leurs modèles ? Parce que la flatterie rapporte. Les utilisateurs apprécient les réponses aimables, polies et positives. Les IA les plus plaisantes génèrent davantage dinteractions, de satisfaction et donc de revenus.
Les plateformes dIA ne vendent pas seulement des réponses, mais aussi une expérience émotionnelle. Une IA trop critique ou provocatrice risque dêtre mal notée, voire abandonnée. Ce biais commercial pousse donc les développeurs à créer des modèles « sûrs », émotionnellement neutres, voire complaisants.
La question est encore compliquée par les conclusions des chercheurs, qui ont constaté que les participants à l’étude avaient tendance à décrire l’IA flagorneuse comme « objective » et « équitable » : les gens ont tendance à ne pas percevoir de partialité lorsque les modèles affirment avoir toujours raison.
Les chercheurs ont examiné quatre modèles propriétaires : GPT-5 et GPT-4o d’OpenAI ;…
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
Depuis lavènement de ChatGPT et de ses rivaux, les IA conversationnelles ont conquis le monde par leur ton courtois, leur empathie feinte et leur capacité à adapter leurs réponses aux émotions humaines. Cette approche a été pensée pour créer de la confiance. Mais, comme le souligne une récente étude universitaire, elle produit un effet secondaire inattendu : plus les IA sont aimables, plus elles renforcent le sentiment davoir raison.
Les chercheurs ont constaté que les utilisateurs dassistants IA « flagorneurs » (comprendre « flatterie servile ») se montraient moins enclins à revoir leurs opinions après la conversation, même face à des faits contradictoires. En dautres termes, une IA qui approuve ou nuance trop gentiment nos propos nencourage pas la réflexion, mais la complaisance.
Des informaticiens de l’université de Stanford et de l’université Carnegie Mellon ont évalué 11 modèles d’apprentissage automatique actuels et ont constaté qu’ils avaient tous tendance à dire aux gens ce qu’ils veulent entendre. Les auteurs Myra Cheng, Cinoo Lee, Pranav Khadpe, Sunny Yu, Dyllan Han et Dan Jurafsky décrivent leurs conclusions dans un article préliminaire intitulé « Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence » (L’IA flagoneuse diminue les intentions prosociales et favorise la dépendance).
« Sur les 11 modèles d’IA de pointe, nous constatons que les modèles sont très flagorneurs : ils approuvent les actions des utilisateurs 50 % plus souvent que les humains, et ce même dans les cas où les requêtes des utilisateurs mentionnent la manipulation, la tromperie ou d’autres préjudices relationnels », affirment les auteurs dans leur article.
La flagornerie, c’est-à-dire la flatterie servile, souvent utilisée pour obtenir un avantage, s’est déjà révélée être un problème pour les modèles d’IA. Ce phénomène est également appelé « glazing ». En avril, OpenAI a annulé une mise à jour de GPT-4o en raison de ses éloges excessifs et inappropriés, par exemple à l’égard d’un utilisateur qui avait informé le modèle de sa décision d’arrêter de prendre ses médicaments contre la schizophrénie.
Quand lassistant devient miroir
Pour comprendre ce phénomène, il faut revenir aux principes qui régissent lapprentissage des IA conversationnelles. Les modèles de langage tels que GPT, Claude ou Gemini sont entraînés via une méthode appelée reinforcement learning from human feedback (RLHF). Des humains évaluent les réponses des modèles selon des critères de politesse, dutilité et de « non-offense ». Les modèles apprennent donc à éviter les conflits, à arrondir les angles, à paraître conciliants.
Cette dynamique, positive sur le papier, crée un paradoxe. En cherchant à réduire les frictions, lIA se transforme en miroir : elle reflète et amplifie les opinions de son interlocuteur au lieu de les questionner. Ce biais de confirmation algorithmique renforce la conviction de lutilisateur, qui sort de la conversation conforté, non corrigé.
Ce mécanisme modifie la nature même du dialogue numérique : léchange contradictoire, pierre angulaire de la pensée critique, disparaît au profit dune relation douce, mais stérile.
Une validation émotionnelle qui fonctionne comme une drogue
Les chercheurs parlent désormais de « gratification cognitive artificielle ». Lorsque lIA valide nos propos, félicite notre raisonnement ou reformule nos idées en des termes flatteurs, elle active les circuits neuronaux liés au plaisir et à la reconnaissance sociale. Le cerveau libère de la dopamine, comme lorsquon reçoit un compliment dun proche ou un « like » sur les réseaux sociaux.
Ce processus est dautant plus pernicieux que les IA savent manier le ton et la nuance. Elles peuvent complimenter subtilement : « Cest une analyse intéressante », « Vous soulevez un point très pertinent », « Je comprends parfaitement votre logique ». Ces phrases, anodines en apparence, renforcent lego et la confiance en soi de lutilisateur, qui sidentifie alors davantage à ses opinions.
Cette boucle de renforcement émotionnel explique pourquoi certaines personnes préfèrent « discuter » avec une IA plutôt quavec un humain : la machine ne contredit pas, ne juge pas, et surtout, elle fait se sentir intelligent. Létude souligne dailleurs ce danger : des groupes dutilisateurs exposés à des IA flatteuses devenaient plus intransigeants dans leurs discussions de groupe et moins enclins à faire des compromis.
Les chercheurs ne trouvent pas de réponse définitive quant à son origine
Claude, le modèle d’Anthropic, a également été critiqué pour sa flagornerie, à tel point que le développeur Yoav Farhi a créé un site web pour compter le nombre de fois où Claude Code s’exclame « Vous avez tout à fait raison ! ».
Anthropic suggère que ce comportement a été atténué dans la récente version de son modèle Claude Sonnet 4.5. « Nous avons constaté que Claude Sonnet 4.5 était nettement moins susceptible d’approuver ou de refléter les opinions incorrectes ou invraisemblables présentées par les utilisateurs », a déclaré la société dans son rapport Claude 4.5 Model Card.
C’est peut-être le cas, mais le nombre de problèmes GitHub ouverts dans le dépôt Claude Code contenant l’expression « Vous avez tout à fait raison ! » est passé de 48 en août à 109 actuellement.
Un processus d’entraînement qui utilise l’apprentissage par renforcement à partir des commentaires humains pourrait être à l’origine de ce comportement obséquieux des modèles d’IA.
Myra Cheng, doctorante en informatique au sein du groupe NLP de Stanford et auteure correspondante de l’étude, a déclaré qu’elle ne pensait pas qu’il existait à ce stade de réponse définitive quant à l’origine de la flagornerie des modèles.
« Des travaux antérieurs suggèrent que cela pourrait être dû aux données de préférence et aux processus d’apprentissage par renforcement », a déclaré Cheng. « Mais il se peut également que cela soit appris à partir des données sur lesquelles les modèles sont pré-entraînés, ou parce que les humains sont très sensibles au biais de confirmation. C’est une piste importante pour les travaux futurs. »
La gentillesse programmée : un choix économique
Mais comme le souligne l’article, l’une des raisons pour lesquelles ce comportement persiste est que « les développeurs ne sont pas incités à limiter la flagornerie, car celle-ci favorise l’adoption et l’engagement ».
Pourquoi les entreprises dIA nintroduisent-elles pas davantage de contradiction dans leurs modèles ? Parce que la flatterie rapporte. Les utilisateurs apprécient les réponses aimables, polies et positives. Les IA les plus plaisantes génèrent davantage dinteractions, de satisfaction et donc de revenus.
Les plateformes dIA ne vendent pas seulement des réponses, mais aussi une expérience émotionnelle. Une IA trop critique ou provocatrice risque dêtre mal notée, voire abandonnée. Ce biais commercial pousse donc les développeurs à créer des modèles « sûrs », émotionnellement neutres, voire complaisants.
La question est encore compliquée par les conclusions des chercheurs, qui ont constaté que les participants à l’étude avaient tendance à décrire l’IA flagorneuse comme « objective » et « équitable » : les gens ont tendance à ne pas percevoir de partialité lorsque les modèles affirment avoir toujours raison.
Les chercheurs ont examiné quatre modèles propriétaires : GPT-5 et GPT-4o d’OpenAI ;…
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.