Faire évaluer l’IA par une autre IA ? Ce qu’on a mesuré — et pourquoi la supervision humaine reste non négociable

On nous demande de plus en plus : « si le modèle tourne chez nous, peut-on aussi vérifier sa qualité chez nous, sans cloud ? » Faire juger l’IA par l’IA, en local. C’est tentant — et c’est exactement le genre d’affirmation qu’on préfère mesurer plutôt que répéter. Voici ce qu’un petit banc d’essai a donné, et la conclusion, plus sobre qu’on ne l’imagine.

Le réflexe séduisant : que l’IA se juge elle-même

Évaluer une IA est étonnamment difficile. Pour une tâche créative ou stratégique — rédiger une note, arbitrer une recommandation — il n’y a pas de « bonne réponse » unique à comparer. Alors une idée s’impose naturellement : demander à une autre IA de jouer le juge, de comparer deux réponses et de désigner la meilleure. Et puisque le modèle qui produit peut tourner en local, pourquoi pas le juge aussi ? Tout resterait souverain, sur la machine, sans rien envoyer dans le cloud.

Sur le papier, c’est élégant. On a voulu voir si ça tenait en vrai.

Le test : deux juges, des copies identiques

On a généré une série de réponses à des questions stratégiques, puis on les a fait noter en aveugle par deux juges sur exactement les mêmes copies : d’un côté un modèle local (sur notre machine), de l’autre un modèle de pointe. Même question, même grille, mêmes textes — seul le juge changeait. L’enjeu : est-ce que le juge local rend les mêmes verdicts que le juge de référence ? Si oui, on pourrait évaluer en local en toute confiance.

Note d’honnêteté : c’est un banc d’essai, pas une étude. Échantillon réduit, premiers chiffres. On en tire une direction, pas une loi.

Le résultat : ils ne sont pas d’accord

Les deux juges se sont accordés sur à peine plus de quarante pour cent des cas. Le juge local avait un parti pris net et constant, là où le juge de pointe nuançait. Autrement dit : pour ces décisions, le juge local n’était pas un substitut fiable du juge de référence. Il jugeait — mais pas comme l’autre, et de façon biaisée.

La leçon dépasse notre petit test : évaluer l’IA a sa propre frontière souverain/cloud, distincte de celle de la production. Faire tourner un modèle en local est une chose ; mesurer sa qualité en local en est une autre, plus exigeante. On peut très bien être autonome pour produire et dépendant pour juger.

Qui juge le juge ?

Le piège est plus profond qu’une question de modèle. Déléguer le jugement à une IA, c’est déplacer la question d’un cran, pas la résoudre : si une IA valide le travail d’une autre IA, qui valide la validatrice ? On peut empiler les juges à l’infini sans jamais toucher le sol. À un moment, il faut quelqu’un qui réponde de la décision — pas un autre algorithme.

C’est encore plus vrai pour les sujets qui engagent l’entreprise : une recommandation stratégique, un arbitrage, un avis qui orientera une vraie décision. Là, « l’IA a dit que c’était bien » n’est pas une garantie. C’est une opinion de plus.

Le seul garant : la supervision humaine

La conclusion est sobre, et c’est sa force. L’IA, locale ou non, est un formidable outil pour produire, comparer, proposer. Mais la responsabilité — celle qui répond devant un client, un régulateur, un conseil d’administration — ne se délègue pas à une machine. Ni à celle qui produit, ni à celle qui juge. Elle reste humaine.

C’est exactement la logique de l’AI Act, qui fait de celui qui déploie un système le responsable de sa supervision. Et c’est notre conviction de méthode : une IA souveraine bien posée n’est pas une IA qu’on laisse décider seule, c’est une IA dont un humain garde la main — qui peut lire, contester, arbitrer, et assumer. La souveraineté technique (vos données chez vous) ne vaut que doublée d’une souveraineté de décision (le dernier mot vous appartient).

Faire évaluer l’IA par l’IA ? Utile comme aide, jamais comme alibi. Le juge de dernière instance, celui qui porte la responsabilité, c’est vous.

Garder la main sur vos IA, pour de vrai

On en parle 30 minutes : comment poser une IA souveraine où l’humain garde le dernier mot — sur vos données, sous votre supervision, avec une responsabilité claire.

Découvrir AQUIFÈRE →