Audit publié le 10 mai 2026 · Version 1.0

Ce que les modèles d'IA répondent quand un RCCI les interroge sur la réglementation financière.

33 questions de conformité. 8 systèmes interrogés. 264 réponses. Chaque article cité a été vérifié sur EUR-Lex et Légifrance.

Cet audit a été réalisé par Nomilys. Nous sommes l'un des systèmes évalués. Les données brutes sont publiées pour permettre la vérification indépendante.

Lire les exemples Télécharger les données brutes

Un exemple, en détail

Question posée aux 8 systèmes

Quels sont les délais de notification des incidents TIC majeurs aux autorités compétentes selon DORA ?

Ce qu'a répondu o3 (le modèle qui équipe ChatGPT Plus)

« L'article 17 de DORA fixe les délais de notification des incidents TIC majeurs (...) le rapport final doit être transmis dans un délai de 20 jours ouvrables à compter du rapport intermédiaire. »

Ce que disent les textes

L'article 17 de DORA traite de la gestion des incidents, pas de leur notification. L'article 19 établit l'obligation de notification en trois temps mais délègue la fixation des délais aux normes techniques de réglementation.

Les délais réels figurent dans le Règlement délégué (UE) 2025/301, article 5.

Étape	Délai textuel	Réponse de o3
Rapport initial	4 heures à compter de la classification (24 h max à compter de la prise de connaissance)	non précisé
Rapport intermédiaire	72 heures après le rapport initial	non précisé
Rapport final	1 mois après le rapport intermédiaire	20 jours ouvrables

Vérifier l'article 19 DORA sur EUR-Lex Vérifier le Règlement délégué 2025/301 sur EUR-Lex

Sur cette même question, Claude Opus 4 et Gemini 2.5 Pro indiquent un délai initial de 24 heures au lieu de 4 heures. Mistral Large indique un rapport intermédiaire « toutes les 24 heures » au lieu de 72 heures.

Une procédure interne rédigée à partir de ces réponses cite des délais inexacts dans un document opposable.

Quatre schémas d'erreur récurrents

Sur les 33 questions et 264 réponses analysées, les erreurs ne sont pas aléatoires. Quatre schémas reviennent.

1. La hiérarchie des normes mal lue

Les délais opérationnels figurent presque toujours dans des règlements délégués ou des RTS, pas dans le règlement de base. Sur la question des délais DORA, cinq des sept modèles généralistes attribuent les délais directement à l'article 19 du règlement (UE) 2022/2554, alors que cet article délègue leur fixation au Règlement délégué (UE) 2025/301.

2. Sanctions pénales et sanctions administratives confondues

Sur la question des sanctions LCB-FT, Gemini 2.5 Flash, Mistral Large et Claude Sonnet 4 citent « 5 ans d'emprisonnement et 375 000 € » comme sanction du défaut de déclaration de soupçon.

Ces montants sont ceux du blanchiment de capitaux (article 324-1 du Code pénal). La sanction pénale du défaut de déclaration au CMF (article L.574-1) est de 22 500 € d'amende. Les sanctions administratives ACPR figurent à l'article L.612-40 et peuvent atteindre 100 M€ ou 10 % du chiffre d'affaires pour les personnes morales. Trois textes différents, trois ordres de grandeur, systématiquement confondus.

3. Articles voisins échangés

Cadre	Article cité (à tort)	Article correct	Modèles
MiFID II — adéquation	Art. 55 Reg. 2017/565	Art. 54	Mistral Large, Gemini 2.5 Pro
UCITS — diversification	Art. 53 Dir. 2009/65	Art. 52	Gemini 2.5 Flash (systématique)
DORA — partage dʼinfo	Art. 20 ou Art. 28	Art. 45	Claude Sonnet 4, Mistral Large, Claude Opus 4
AIFMD — rémunération	Art. 38-54 Reg. 231/2013	Art. 107-115 Reg. 231/2013	o3

4. Mauvais texte, bon thème

Sur la question UCITS et les dérivés, Mistral Large cite le Règlement (UE) 2017/653 (PRIIPs) pour les méthodes de calcul de l'exposition. Ce règlement traite du document d'informations clés des produits packagés, pas des dérivés UCITS.

Claude Sonnet 4, sur plusieurs questions UCITS, cite le Règlement délégué (UE) 231/2013 qui est le règlement d'application de l'AIFMD, pas de l'UCITS.

Mistral Large, sur la question du dépositaire UCITS, cite le Règlement (UE) 583/2010 (qui régit le KIID) pour des dispositions qui figurent au Règlement (UE) 2016/438.

Le thème est juste, le texte cité ne l'est pas.

Résultats agrégés

Score moyen sur les 33 questions, sur 20.

Système	Score	Hallucinations
Nomilys (RAG + Mistral Large)	20.00 / 20	0
Gemini 2.5 Pro (API)	19.33 / 20	16
o3 (API)	19.21 / 20	34
Gemini 2.5 Flash (API)	18.12 / 20	38
Mistral Large (API)	15.73 / 20	75
Claude Opus 4 (API)	15.42 / 20	55
GPT-4o (API)	12.79 / 20	38
Claude Sonnet 4 (API)	12.48 / 20	78

Nomilys n'est pas un modèle de langage. C'est un système de recherche augmentée qui interroge un corpus réglementaire vectorisé (319 725 fragments de texte issus de 9 autorités) avant qu'un modèle de génération ne formule la réponse. Les autres systèmes répondent depuis leurs poids de modèle, sans recherche.

Cette comparaison n'est donc pas un match à armes égales. Elle compare deux approches du même problème : générer une réponse plausible contre retrouver la disposition applicable et la citer.

Le constat utile pour un RCCI n'est pas que Nomilys arrive en tête. Il est que les meilleurs modèles généralistes produisent des dizaines d'erreurs vérifiables sur EUR-Lex dès que la question demande une citation d'article précise.

Une note sur Nomilys

Nomilys obtient 20,00 / 20 et zéro hallucination consignée.

Sur la question MiFID II du classement des clients, la réponse mentionne des seuils historiques (12,5 M€ / 25 M€) issus d'une source du corpus. Les seuils en vigueur (20 M€ / 40 M€ / 2 M€) figurent correctement en première position dans la réponse. L'information complémentaire est sourcée et ne constitue pas une hallucination.

Nous documentons ce cas ici pour la même raison que les autres : si nous voulons être crédibles quand nous pointons les erreurs des modèles généralistes, nous devons l'être aussi quand nous examinons les nôtres.

Performance par cadre réglementaire

Système	Score
Nomilys (RAG + Mistral Large)	100 / 100
Gemini 2.5 Pro (API)	88 / 100
o3 (API)	92 / 100
Gemini 2.5 Flash (API)	80 / 100
Mistral Large (API)	81 / 100
Claude Opus 4 (API)	71 / 100
GPT-4o (API)	49 / 100
Claude Sonnet 4 (API)	58 / 100

Méthodologie

Systèmes testés via API

Modèle	Endpoint	Produit grand public
GPT-4o	OpenAI API	ChatGPT (gratuit) sur chatgpt.com
o3	OpenAI API	ChatGPT Plus sur chatgpt.com
Claude Sonnet 4	Anthropic API	Claude (gratuit) sur claude.ai
Claude Opus 4	Anthropic API	Claude Pro sur claude.ai
Gemini 2.5 Flash	Google AI API	Gemini (gratuit) sur gemini.google.com
Gemini 2.5 Pro	Google AI API	Gemini Advanced sur gemini.google.com
Mistral Large	Mistral API	Le Chat sur chat.mistral.ai
Nomilys (RAG)	API interne	nomilys.com

Conditions d'interrogation

Prompt système : identique pour tous les systèmes hors RAG

Température : 0,1

Tokens maximum : 4 096

Outils externes : désactivés

Historique : aucun

Date : mai 2026

Critères de notation

Chaque réponse est notée sur 4 critères de 0 à 5. Total sur 20.

Exactitude : justesse factuelle des affirmations juridiques
Précision : niveau de détail des références
Complétude : couverture des aspects importants
Anti-hallucination : 5 = aucune source inventée

Vérification

Chaque article cité dans les 264 réponses a été vérifié sur EUR-Lex ou Légifrance.

Méthodologie complète

Ce que cet audit ne mesure pas

L'évaluateur est partie prenante. Cet audit a été réalisé par Nomilys, qui est l'un des systèmes testés. Le conflit d'intérêt est réel. Nous publions les 264 réponses brutes, les grilles de notation et les vérifications EUR-Lex pour permettre à un tiers de refaire l'exercice et de contester nos notes.

Les modèles ont été testés via API, sans outils externes. Les produits grand public (chatgpt.com, claude.ai, gemini.google.com) intègrent des fonctionnalités de recherche web qui n'ont pas été activées ici.

33 questions, 6 cadres. MiCA, EMIR, CRD VI, Solvabilité II, BMR, CSRD, IDD ne sont pas couverts.

Photographie temporelle. Les modèles évoluent. Ce résultat date de mai 2026.

Données ouvertes

L'intégralité du jeu de données est publiée. Chaque fichier est téléchargeable.

264 réponses complètes

JSON · 1,9 Mo

Grilles de notation par cadre

CSV · 89 Ko

Registre des hallucinations

CSV · 95 Ko

Méthodologie complète

MD · 17 Ko

Liste des 33 questions

TXT · 4 Ko

Tester sur vos propres questions

Cet audit utilise des questions génériques. Les vôtres sont plus spécifiques, plus tordues, plus ancrées dans vos pratiques. C'est le bon test.

Demander une démo contact@nomilys.com