Audit publié le 10 mai 2026 · Version 1.0
Ce que les modèles d'IA répondent quand un RCCI les interroge sur la réglementation financière.
33 questions de conformité. 8 systèmes interrogés. 264 réponses. Chaque article cité a été vérifié sur EUR-Lex et Légifrance.
Cet audit a été réalisé par Nomilys. Nous sommes l'un des systèmes évalués. Les données brutes sont publiées pour permettre la vérification indépendante.
Un exemple, en détail
Question posée aux 8 systèmes
Quels sont les délais de notification des incidents TIC majeurs aux autorités compétentes selon DORA ?
Ce qu'a répondu o3 (le modèle qui équipe ChatGPT Plus)
« L'article 17 de DORA fixe les délais de notification des incidents TIC majeurs (...) le rapport final doit être transmis dans un délai de 20 jours ouvrables à compter du rapport intermédiaire. »
Ce que disent les textes
L'article 17 de DORA traite de la gestion des incidents, pas de leur notification. L'article 19 établit l'obligation de notification en trois temps mais délègue la fixation des délais aux normes techniques de réglementation.
Les délais réels figurent dans le Règlement délégué (UE) 2025/301, article 5.
| Étape | Délai textuel | Réponse de o3 |
|---|---|---|
| Rapport initial | 4 heures à compter de la classification (24 h max à compter de la prise de connaissance) | non précisé |
| Rapport intermédiaire | 72 heures après le rapport initial | non précisé |
| Rapport final | 1 mois après le rapport intermédiaire | 20 jours ouvrables |
Sur cette même question, Claude Opus 4 et Gemini 2.5 Pro indiquent un délai initial de 24 heures au lieu de 4 heures. Mistral Large indique un rapport intermédiaire « toutes les 24 heures » au lieu de 72 heures.
Une procédure interne rédigée à partir de ces réponses cite des délais inexacts dans un document opposable.
Quatre schémas d'erreur récurrents
Sur les 33 questions et 264 réponses analysées, les erreurs ne sont pas aléatoires. Quatre schémas reviennent.
1. La hiérarchie des normes mal lue
Les délais opérationnels figurent presque toujours dans des règlements délégués ou des RTS, pas dans le règlement de base. Sur la question des délais DORA, cinq des sept modèles généralistes attribuent les délais directement à l'article 19 du règlement (UE) 2022/2554, alors que cet article délègue leur fixation au Règlement délégué (UE) 2025/301.
2. Sanctions pénales et sanctions administratives confondues
Sur la question des sanctions LCB-FT, Gemini 2.5 Flash, Mistral Large et Claude Sonnet 4 citent « 5 ans d'emprisonnement et 375 000 € » comme sanction du défaut de déclaration de soupçon.
Ces montants sont ceux du blanchiment de capitaux (article 324-1 du Code pénal). La sanction pénale du défaut de déclaration au CMF (article L.574-1) est de 22 500 € d'amende. Les sanctions administratives ACPR figurent à l'article L.612-40 et peuvent atteindre 100 M€ ou 10 % du chiffre d'affaires pour les personnes morales. Trois textes différents, trois ordres de grandeur, systématiquement confondus.
3. Articles voisins échangés
| Cadre | Article cité (à tort) | Article correct | Modèles |
|---|---|---|---|
| MiFID II — adéquation | Art. 55 Reg. 2017/565 | Art. 54 | Mistral Large, Gemini 2.5 Pro |
| UCITS — diversification | Art. 53 Dir. 2009/65 | Art. 52 | Gemini 2.5 Flash (systématique) |
| DORA — partage dʼinfo | Art. 20 ou Art. 28 | Art. 45 | Claude Sonnet 4, Mistral Large, Claude Opus 4 |
| AIFMD — rémunération | Art. 38-54 Reg. 231/2013 | Art. 107-115 Reg. 231/2013 | o3 |
4. Mauvais texte, bon thème
Sur la question UCITS et les dérivés, Mistral Large cite le Règlement (UE) 2017/653 (PRIIPs) pour les méthodes de calcul de l'exposition. Ce règlement traite du document d'informations clés des produits packagés, pas des dérivés UCITS.
Claude Sonnet 4, sur plusieurs questions UCITS, cite le Règlement délégué (UE) 231/2013 qui est le règlement d'application de l'AIFMD, pas de l'UCITS.
Mistral Large, sur la question du dépositaire UCITS, cite le Règlement (UE) 583/2010 (qui régit le KIID) pour des dispositions qui figurent au Règlement (UE) 2016/438.
Le thème est juste, le texte cité ne l'est pas.
Résultats agrégés
Score moyen sur les 33 questions, sur 20.
| Système | Score | Hallucinations |
|---|---|---|
| Nomilys (RAG + Mistral Large) | 20.00 / 20 | 0 |
| Gemini 2.5 Pro (API) | 19.33 / 20 | 16 |
| o3 (API) | 19.21 / 20 | 34 |
| Gemini 2.5 Flash (API) | 18.12 / 20 | 38 |
| Mistral Large (API) | 15.73 / 20 | 75 |
| Claude Opus 4 (API) | 15.42 / 20 | 55 |
| GPT-4o (API) | 12.79 / 20 | 38 |
| Claude Sonnet 4 (API) | 12.48 / 20 | 78 |
Nomilys n'est pas un modèle de langage. C'est un système de recherche augmentée qui interroge un corpus réglementaire vectorisé (319 725 fragments de texte issus de 9 autorités) avant qu'un modèle de génération ne formule la réponse. Les autres systèmes répondent depuis leurs poids de modèle, sans recherche.
Cette comparaison n'est donc pas un match à armes égales. Elle compare deux approches du même problème : générer une réponse plausible contre retrouver la disposition applicable et la citer.
Le constat utile pour un RCCI n'est pas que Nomilys arrive en tête. Il est que les meilleurs modèles généralistes produisent des dizaines d'erreurs vérifiables sur EUR-Lex dès que la question demande une citation d'article précise.
Une note sur Nomilys
Nomilys obtient 20,00 / 20 et zéro hallucination consignée.
Sur la question MiFID II du classement des clients, la réponse mentionne des seuils historiques (12,5 M€ / 25 M€) issus d'une source du corpus. Les seuils en vigueur (20 M€ / 40 M€ / 2 M€) figurent correctement en première position dans la réponse. L'information complémentaire est sourcée et ne constitue pas une hallucination.
Nous documentons ce cas ici pour la même raison que les autres : si nous voulons être crédibles quand nous pointons les erreurs des modèles généralistes, nous devons l'être aussi quand nous examinons les nôtres.
Performance par cadre réglementaire
| Système | Score |
|---|---|
| Nomilys (RAG + Mistral Large) | 100 / 100 |
| Gemini 2.5 Pro (API) | 88 / 100 |
| o3 (API) | 92 / 100 |
| Gemini 2.5 Flash (API) | 80 / 100 |
| Mistral Large (API) | 81 / 100 |
| Claude Opus 4 (API) | 71 / 100 |
| GPT-4o (API) | 49 / 100 |
| Claude Sonnet 4 (API) | 58 / 100 |
Méthodologie
Systèmes testés via API
| Modèle | Endpoint | Produit grand public |
|---|---|---|
| GPT-4o | OpenAI API | ChatGPT (gratuit) sur chatgpt.com |
| o3 | OpenAI API | ChatGPT Plus sur chatgpt.com |
| Claude Sonnet 4 | Anthropic API | Claude (gratuit) sur claude.ai |
| Claude Opus 4 | Anthropic API | Claude Pro sur claude.ai |
| Gemini 2.5 Flash | Google AI API | Gemini (gratuit) sur gemini.google.com |
| Gemini 2.5 Pro | Google AI API | Gemini Advanced sur gemini.google.com |
| Mistral Large | Mistral API | Le Chat sur chat.mistral.ai |
| Nomilys (RAG) | API interne | nomilys.com |
Conditions d'interrogation
Prompt système : identique pour tous les systèmes hors RAG
Température : 0,1
Tokens maximum : 4 096
Outils externes : désactivés
Historique : aucun
Date : mai 2026
Critères de notation
Chaque réponse est notée sur 4 critères de 0 à 5. Total sur 20.
- Exactitude : justesse factuelle des affirmations juridiques
- Précision : niveau de détail des références
- Complétude : couverture des aspects importants
- Anti-hallucination : 5 = aucune source inventée
Vérification
Chaque article cité dans les 264 réponses a été vérifié sur EUR-Lex ou Légifrance.
Ce que cet audit ne mesure pas
L'évaluateur est partie prenante. Cet audit a été réalisé par Nomilys, qui est l'un des systèmes testés. Le conflit d'intérêt est réel. Nous publions les 264 réponses brutes, les grilles de notation et les vérifications EUR-Lex pour permettre à un tiers de refaire l'exercice et de contester nos notes.
Les modèles ont été testés via API, sans outils externes. Les produits grand public (chatgpt.com, claude.ai, gemini.google.com) intègrent des fonctionnalités de recherche web qui n'ont pas été activées ici.
33 questions, 6 cadres. MiCA, EMIR, CRD VI, Solvabilité II, BMR, CSRD, IDD ne sont pas couverts.
Photographie temporelle. Les modèles évoluent. Ce résultat date de mai 2026.
Données ouvertes
L'intégralité du jeu de données est publiée. Chaque fichier est téléchargeable.
Tester sur vos propres questions
Cet audit utilise des questions génériques. Les vôtres sont plus spécifiques, plus tordues, plus ancrées dans vos pratiques. C'est le bon test.