Audit publié le 10 mai 2026 · Version 1.0

Ce que les modèles d'IA répondent quand un RCCI les interroge sur la réglementation financière.

33 questions de conformité. 8 systèmes interrogés. 264 réponses. Chaque article cité a été vérifié sur EUR-Lex et Légifrance.

Cet audit a été réalisé par Nomilys. Nous sommes l'un des systèmes évalués. Les données brutes sont publiées pour permettre la vérification indépendante.

Un exemple, en détail

Question posée aux 8 systèmes

Quels sont les délais de notification des incidents TIC majeurs aux autorités compétentes selon DORA ?

Ce qu'a répondu o3 (le modèle qui équipe ChatGPT Plus)

« L'article 17 de DORA fixe les délais de notification des incidents TIC majeurs (...) le rapport final doit être transmis dans un délai de 20 jours ouvrables à compter du rapport intermédiaire. »

Ce que disent les textes

L'article 17 de DORA traite de la gestion des incidents, pas de leur notification. L'article 19 établit l'obligation de notification en trois temps mais délègue la fixation des délais aux normes techniques de réglementation.

Les délais réels figurent dans le Règlement délégué (UE) 2025/301, article 5.

ÉtapeDélai textuelRéponse de o3
Rapport initial4 heures à compter de la classification (24 h max à compter de la prise de connaissance)non précisé
Rapport intermédiaire72 heures après le rapport initialnon précisé
Rapport final1 mois après le rapport intermédiaire20 jours ouvrables

Sur cette même question, Claude Opus 4 et Gemini 2.5 Pro indiquent un délai initial de 24 heures au lieu de 4 heures. Mistral Large indique un rapport intermédiaire « toutes les 24 heures » au lieu de 72 heures.

Une procédure interne rédigée à partir de ces réponses cite des délais inexacts dans un document opposable.

Quatre schémas d'erreur récurrents

Sur les 33 questions et 264 réponses analysées, les erreurs ne sont pas aléatoires. Quatre schémas reviennent.

1. La hiérarchie des normes mal lue

Les délais opérationnels figurent presque toujours dans des règlements délégués ou des RTS, pas dans le règlement de base. Sur la question des délais DORA, cinq des sept modèles généralistes attribuent les délais directement à l'article 19 du règlement (UE) 2022/2554, alors que cet article délègue leur fixation au Règlement délégué (UE) 2025/301.

2. Sanctions pénales et sanctions administratives confondues

Sur la question des sanctions LCB-FT, Gemini 2.5 Flash, Mistral Large et Claude Sonnet 4 citent « 5 ans d'emprisonnement et 375 000 € » comme sanction du défaut de déclaration de soupçon.

Ces montants sont ceux du blanchiment de capitaux (article 324-1 du Code pénal). La sanction pénale du défaut de déclaration au CMF (article L.574-1) est de 22 500 € d'amende. Les sanctions administratives ACPR figurent à l'article L.612-40 et peuvent atteindre 100 M€ ou 10 % du chiffre d'affaires pour les personnes morales. Trois textes différents, trois ordres de grandeur, systématiquement confondus.

3. Articles voisins échangés

CadreArticle cité (à tort)Article correctModèles
MiFID II — adéquationArt. 55 Reg. 2017/565Art. 54Mistral Large, Gemini 2.5 Pro
UCITS — diversificationArt. 53 Dir. 2009/65Art. 52Gemini 2.5 Flash (systématique)
DORA — partage dʼinfoArt. 20 ou Art. 28Art. 45Claude Sonnet 4, Mistral Large, Claude Opus 4
AIFMD — rémunérationArt. 38-54 Reg. 231/2013Art. 107-115 Reg. 231/2013o3

4. Mauvais texte, bon thème

Sur la question UCITS et les dérivés, Mistral Large cite le Règlement (UE) 2017/653 (PRIIPs) pour les méthodes de calcul de l'exposition. Ce règlement traite du document d'informations clés des produits packagés, pas des dérivés UCITS.

Claude Sonnet 4, sur plusieurs questions UCITS, cite le Règlement délégué (UE) 231/2013 qui est le règlement d'application de l'AIFMD, pas de l'UCITS.

Mistral Large, sur la question du dépositaire UCITS, cite le Règlement (UE) 583/2010 (qui régit le KIID) pour des dispositions qui figurent au Règlement (UE) 2016/438.

Le thème est juste, le texte cité ne l'est pas.

Résultats agrégés

Score moyen sur les 33 questions, sur 20.

SystèmeScoreHallucinations
Nomilys (RAG + Mistral Large)20.00 / 200
Gemini 2.5 Pro (API)19.33 / 2016
o3 (API)19.21 / 2034
Gemini 2.5 Flash (API)18.12 / 2038
Mistral Large (API)15.73 / 2075
Claude Opus 4 (API)15.42 / 2055
GPT-4o (API)12.79 / 2038
Claude Sonnet 4 (API)12.48 / 2078

Nomilys n'est pas un modèle de langage. C'est un système de recherche augmentée qui interroge un corpus réglementaire vectorisé (319 725 fragments de texte issus de 9 autorités) avant qu'un modèle de génération ne formule la réponse. Les autres systèmes répondent depuis leurs poids de modèle, sans recherche.

Cette comparaison n'est donc pas un match à armes égales. Elle compare deux approches du même problème : générer une réponse plausible contre retrouver la disposition applicable et la citer.

Le constat utile pour un RCCI n'est pas que Nomilys arrive en tête. Il est que les meilleurs modèles généralistes produisent des dizaines d'erreurs vérifiables sur EUR-Lex dès que la question demande une citation d'article précise.

Une note sur Nomilys

Nomilys obtient 20,00 / 20 et zéro hallucination consignée.

Sur la question MiFID II du classement des clients, la réponse mentionne des seuils historiques (12,5 M€ / 25 M€) issus d'une source du corpus. Les seuils en vigueur (20 M€ / 40 M€ / 2 M€) figurent correctement en première position dans la réponse. L'information complémentaire est sourcée et ne constitue pas une hallucination.

Nous documentons ce cas ici pour la même raison que les autres : si nous voulons être crédibles quand nous pointons les erreurs des modèles généralistes, nous devons l'être aussi quand nous examinons les nôtres.

Performance par cadre réglementaire

SystèmeScore
Nomilys (RAG + Mistral Large)100 / 100
Gemini 2.5 Pro (API)88 / 100
o3 (API)92 / 100
Gemini 2.5 Flash (API)80 / 100
Mistral Large (API)81 / 100
Claude Opus 4 (API)71 / 100
GPT-4o (API)49 / 100
Claude Sonnet 4 (API)58 / 100

Méthodologie

Systèmes testés via API

ModèleEndpointProduit grand public
GPT-4oOpenAI APIChatGPT (gratuit) sur chatgpt.com
o3OpenAI APIChatGPT Plus sur chatgpt.com
Claude Sonnet 4Anthropic APIClaude (gratuit) sur claude.ai
Claude Opus 4Anthropic APIClaude Pro sur claude.ai
Gemini 2.5 FlashGoogle AI APIGemini (gratuit) sur gemini.google.com
Gemini 2.5 ProGoogle AI APIGemini Advanced sur gemini.google.com
Mistral LargeMistral APILe Chat sur chat.mistral.ai
Nomilys (RAG)API internenomilys.com

Conditions d'interrogation

Prompt système : identique pour tous les systèmes hors RAG

Température : 0,1

Tokens maximum : 4 096

Outils externes : désactivés

Historique : aucun

Date : mai 2026

Critères de notation

Chaque réponse est notée sur 4 critères de 0 à 5. Total sur 20.

  • Exactitude : justesse factuelle des affirmations juridiques
  • Précision : niveau de détail des références
  • Complétude : couverture des aspects importants
  • Anti-hallucination : 5 = aucune source inventée

Vérification

Chaque article cité dans les 264 réponses a été vérifié sur EUR-Lex ou Légifrance.

Méthodologie complète

Ce que cet audit ne mesure pas

L'évaluateur est partie prenante. Cet audit a été réalisé par Nomilys, qui est l'un des systèmes testés. Le conflit d'intérêt est réel. Nous publions les 264 réponses brutes, les grilles de notation et les vérifications EUR-Lex pour permettre à un tiers de refaire l'exercice et de contester nos notes.

Les modèles ont été testés via API, sans outils externes. Les produits grand public (chatgpt.com, claude.ai, gemini.google.com) intègrent des fonctionnalités de recherche web qui n'ont pas été activées ici.

33 questions, 6 cadres. MiCA, EMIR, CRD VI, Solvabilité II, BMR, CSRD, IDD ne sont pas couverts.

Photographie temporelle. Les modèles évoluent. Ce résultat date de mai 2026.

Tester sur vos propres questions

Cet audit utilise des questions génériques. Les vôtres sont plus spécifiques, plus tordues, plus ancrées dans vos pratiques. C'est le bon test.