# Benchmark Nomilys — Méthodologie

**Version** : 1.0
**Date** : Mai 2026
**Réalisé par** : Nomilys (Proziti SAS)

---

## 1. Objectif

Évaluer la capacité de 8 systèmes d'intelligence artificielle à répondre correctement à des questions de conformité réglementaire financière, en mesurant l'exactitude des sources citées, la précision des références, la complétude des réponses et l'absence d'hallucinations.

Ce benchmark ne mesure pas la rapidité de réponse, l'ergonomie ou le coût. Il mesure exclusivement la fiabilité du contenu produit pour un usage professionnel en conformité réglementaire.

---

## 2. Périmètre réglementaire

### 2.1 Cadres réglementaires couverts

| Cadre | Textes de référence | Questions |
|-------|-------------------|-----------|
| DORA | Règlement (UE) 2022/2554, Règlements délégués 2025/301, 2024/1772 | 5 |
| MiFID II | Directive 2014/65/UE, Règlement 600/2014 (MiFIR), Règlement délégué 2017/565, Directive déléguée 2017/593 | 5 |
| LCB-FT | Directive 2015/849 (4AMLD), Directive 2018/843 (5AMLD), Code monétaire et financier (L.561-1 et suivants) | 5 |
| UCITS | Directive 2009/65/CE, Directive 2014/91/UE (UCITS V), Règlement 583/2010, Règlement 2016/438 | 5 |
| AIFMD | Directive 2011/61/UE, Règlement délégué 231/2013 | 5 |
| SFDR | Règlement 2019/2088, Règlement délégué 2022/1288, Règlement 2020/852 (Taxonomie) | 5 |
| Transversal | Combinaison de plusieurs cadres ci-dessus | 3 |

### 2.2 Nature des questions

Les 33 questions couvrent des problématiques opérationnelles réelles rencontrées par les équipes conformité des sociétés de gestion d'actifs françaises :

- Obligations de notification et délais (DORA)
- Évaluation de l'adéquation et classification des clients (MiFID II)
- Vigilance renforcée, déclaration de soupçon, sanctions (LCB-FT)
- Limites de diversification, obligations du dépositaire, passeport européen (UCITS)
- Gestion des risques, rémunération, reporting Annexe IV, levier, délégation (AIFMD)
- Différence Article 8 / Article 9, PAI, informations précontractuelles, taxonomie (SFDR)
- Articulations entre cadres : DORA × MiFID II, LCB-FT × MiFID II × AIFMD, SFDR × AIFMD × MiFID II

Chaque question est formulée en français, en langage professionnel, telle qu'un RCCI ou un responsable conformité la poserait.

---

## 3. Systèmes testés

### 3.1 Liste des systèmes

| Système | Produit commercial | Modèle sous-jacent | Coût mensuel | Accès |
|---------|-------------------|-------------------|-------------|-------|
| Nomilys | Nomilys | RAG authority_v1 + Mistral Large | — | nomilys.com |
| ChatGPT (gratuit) | ChatGPT | GPT-4o | 0 € | chatgpt.com |
| ChatGPT Plus | ChatGPT | o3 | 20 € | chatgpt.com |
| Claude (gratuit) | Claude | Claude Sonnet 4 | 0 € | claude.ai |
| Claude Pro | Claude | Claude Opus 4 | 20 € | claude.ai |
| Gemini (gratuit) | Gemini | Gemini 2.5 Flash | 0 € | gemini.google.com |
| Gemini Advanced | Gemini | Gemini 2.5 Pro | 22 € | gemini.google.com |
| Le Chat | Le Chat (Mistral) | Mistral Large | 0 € | chat.mistral.ai |

### 3.2 Choix des systèmes

Les systèmes ont été sélectionnés pour représenter les outils qu'un professionnel de la conformité utiliserait en pratique :

- Les 4 principaux chatbots IA grand public (ChatGPT, Claude, Gemini, Mistral Le Chat)
- Pour chaque produit proposant une version payante, les deux versions (gratuite et payante) sont testées séparément
- Nomilys est inclus comme système spécialisé en réglementation financière

### 3.3 Conditions de test

Chaque système a été interrogé dans des conditions identiques :

- **Prompt système** : identique pour tous les systèmes non-RAG : "Tu es un expert en réglementation financière européenne et française. Réponds de manière précise et détaillée aux questions réglementaires. Cite les articles, directives et règlements spécifiques quand c'est possible. Réponds en français."
- **Température** : 0.1 (déterminisme maximal)
- **Tokens maximum** : 4 096 par réponse
- **Langue** : français
- **Historique** : aucun (chaque question est posée indépendamment, sans contexte conversationnel)
- **Date** : toutes les réponses ont été collectées en mai 2026
- **Outils** : aucun outil externe activé (pas de recherche web, pas de code interpreter)

Pour Nomilys :
- **Mode** : authority_v1 (recherche par tiers d'autorité)
- **Reranking** : activé (Jina Reranker v3)
- **Collection** : fr_all (319 725 chunks issus de 9 autorités)
- **Génération** : Mistral Large (température 0.1)

---

## 4. Critères de notation

### 4.1 Grille d'évaluation

Chaque réponse est notée sur 4 critères, chacun de 0 à 5. Le score total par réponse est sur 20.

#### Exactitude (Accuracy) — 0 à 5

Mesure la justesse factuelle des affirmations juridiques contenues dans la réponse.

| Note | Définition |
|------|-----------|
| 5 | Toutes les affirmations juridiques sont factuellement correctes |
| 4 | Une imprécision mineure sans impact sur la compréhension |
| 3 | Une erreur factuelle significative (mauvais article, mauvais texte) |
| 2 | Plusieurs erreurs factuelles affectant la fiabilité de la réponse |
| 1 | Erreurs majeures rendant la réponse inutilisable |
| 0 | Réponse fondamentalement incorrecte |

#### Précision (Specificity) — 0 à 5

Mesure le niveau de détail des références réglementaires citées.

| Note | Définition |
|------|-----------|
| 5 | Citations précises : numéro d'article, paragraphe, alinéa, nom complet du texte |
| 4 | Citations correctes avec numéros d'articles mais sans paragraphes/alinéas |
| 3 | Références au texte correct mais sans numéros d'articles précis |
| 2 | Références vagues ("la directive prévoit...") sans identification du texte |
| 1 | Aucune référence réglementaire identifiable |
| 0 | Pas de contenu réglementaire |

#### Complétude (Completeness) — 0 à 5

Mesure la couverture des aspects importants de la question.

| Note | Définition |
|------|-----------|
| 5 | Couvre tous les aspects importants de la question, y compris les cas particuliers et exceptions |
| 4 | Couvre les aspects principaux, omet un élément secondaire |
| 3 | Couvre les aspects fondamentaux mais omet un élément important |
| 2 | Réponse partielle, plusieurs aspects importants omis |
| 1 | Réponse très superficielle |
| 0 | Ne répond pas à la question |

#### Anti-hallucination — 0 à 5

Mesure l'absence de sources inventées, d'articles mal attribués ou de dispositions inexistantes. Ce critère est inversé : 5 signifie aucune hallucination.

| Note | Définition |
|------|-----------|
| 5 | Aucune source inventée, aucun article mal attribué |
| 4 | Une imprécision dans une référence (numéro de paragraphe erroné) sans invention |
| 3 | Un article attribué au mauvais texte ou un numéro d'article incorrect |
| 2 | Plusieurs sources mal attribuées ou articles incorrects |
| 1 | Invention de dispositions réglementaires inexistantes |
| 0 | Fabrication massive de sources (règlements inventés, articles fictifs) |

### 4.2 Définition d'une hallucination

Est considérée comme une hallucination toute affirmation réglementaire qui :

- Cite un article qui n'existe pas dans le texte référencé (exemple : "Article 55 de la directive UCITS" alors que la directive 2009/65/CE ne contient pas d'article 55)
- Attribue une disposition au mauvais texte (exemple : citer le Règlement délégué 231/2013 pour une question UCITS alors qu'il s'agit du texte AIFMD)
- Invente un montant de sanction, un délai ou un seuil qui ne figure dans aucun texte applicable
- Attribue une règle au mauvais niveau de la hiérarchie normative (exemple : attribuer un délai directement à DORA alors qu'il est dans un règlement délégué)

N'est pas considérée comme une hallucination :
- Une formulation imprécise d'une règle qui existe réellement
- L'omission d'un texte pertinent (pénalisé en complétude, pas en anti-hallucination)
- Une interprétation juridique discutable mais défendable

---

## 5. Processus de vérification

### 5.1 Vérification des sources

Chaque règlement, directive, article et alinéa cité dans les 264 réponses (33 questions × 8 systèmes) a été vérifié selon le processus suivant :

1. **Identification** : extraction de chaque référence réglementaire citée dans la réponse
2. **Vérification sur EUR-Lex** : pour les textes européens (règlements, directives, règlements délégués, ITS, RTS), consultation du texte consolidé sur eur-lex.europa.eu
3. **Vérification sur Légifrance** : pour les textes français (Code monétaire et financier, arrêtés, instructions ACPR/AMF), consultation sur legifrance.gouv.fr
4. **Contrôle croisé** : vérification que l'article cité traite bien du sujet décrit dans la réponse
5. **Consignation** : chaque source inventée ou mal attribuée est consignée dans le registre des hallucinations avec l'identification de l'erreur et la correction

### 5.2 Sources de référence

| Source | URL | Utilisation |
|--------|-----|------------|
| EUR-Lex | eur-lex.europa.eu | Textes européens (règlements, directives, actes délégués) |
| Légifrance | legifrance.gouv.fr | Code monétaire et financier, ordonnances, arrêtés |
| AMF | amf-france.org | Règlement général de l'AMF, doctrine, positions |
| ACPR | acpr.banque-france.fr | Instructions, lignes directrices |
| ESMA | esma.europa.eu | Orientations, Q&A, rapports finaux |
| EBA | eba.europa.eu | Orientations, normes techniques |

### 5.3 Registre des hallucinations

Chaque hallucination identifiée est documentée avec :
- Le système concerné
- La question posée
- La citation exacte produite par le système
- La correction (le texte ou l'article réellement applicable)
- La source de vérification (URL EUR-Lex ou Légifrance)

Le registre complet est disponible dans les fichiers de notation par cadre réglementaire.

---

## 6. Calcul des scores

### 6.1 Score par question

Pour chaque question, chaque système obtient un score entre 0 et 20 :

```
Score question = Exactitude (0-5) + Précision (0-5) + Complétude (0-5) + Anti-hallucination (0-5)
```

### 6.2 Score par cadre réglementaire

Pour chaque cadre réglementaire, le score est la somme des scores des questions du cadre :

- DORA, MiFID II, LCB-FT, UCITS, AIFMD, SFDR : 5 questions × 20 = 100 maximum
- Transversal : 3 questions × 20 = 60 maximum

### 6.3 Score global

Le score global est la somme de tous les scores sur les 33 questions :

```
Score global = Σ (scores des 33 questions) = max 660
Score moyen = Score global / 33 = max 20.0
```

### 6.4 Nombre d'hallucinations

Le nombre d'hallucinations est le décompte total des sources inventées ou mal attribuées identifiées dans les réponses d'un système, toutes questions confondues.

---

## 7. Limites et transparence

### 7.1 Évaluateur

Ce benchmark a été réalisé et évalué par Nomilys (Proziti SAS). Nomilys est à la fois l'un des systèmes testés et l'évaluateur du benchmark. Cette situation crée un conflit d'intérêt potentiel.

Pour atténuer ce biais :
- Les 264 réponses complètes sont disponibles sur demande
- Chaque grille de notation est documentée avec justification
- Chaque vérification EUR-Lex/Légifrance est reproductible
- Le lecteur peut vérifier indépendamment chaque source citée dans chaque réponse

### 7.2 Limites du benchmark

- **33 questions** : l'échantillon couvre 6 cadres réglementaires mais ne prétend pas être exhaustif. D'autres cadres (MiCA, EMIR, CRD, Solvabilité II) ne sont pas testés.
- **Questions isolées** : chaque question est posée indépendamment. Le benchmark ne teste pas les conversations multi-tours, les relances ou les demandes de clarification.
- **Snapshot temporel** : les réponses ont été collectées en mai 2026. Les modèles évoluent. Les résultats peuvent différer à une autre date.
- **Prompt unique** : tous les systèmes non-RAG reçoivent le même prompt générique. Un prompt optimisé par système pourrait produire de meilleurs résultats.
- **Pas de recherche web** : les systèmes ont été testés sans accès à internet. En conditions réelles, certains produits (Gemini, ChatGPT) peuvent effectuer des recherches web qui améliorent leurs réponses.

### 7.3 Reproductibilité

Le benchmark peut être reproduit avec :
- Les 33 questions (listées dans la section Questions)
- Le prompt système (section 3.3)
- Les paramètres de température et de tokens (section 3.3)
- L'accès aux systèmes listés (section 3.1)
- L'accès à EUR-Lex et Légifrance pour la vérification

Les scripts de collecte des réponses et les fichiers de résultats bruts sont conservés dans le dépôt du projet.

---

## 8. Questions posées

### DORA (5 questions)

1. Quels sont les délais de notification des incidents TIC majeurs aux autorités compétentes selon DORA ?
2. Quelles sont les exigences de DORA en matière de tests de pénétration fondés sur la menace (TLPT) ?
3. Comment DORA encadre-t-il la gestion des risques liés aux prestataires tiers de services TIC ?
4. Quelles entités financières sont soumises au règlement DORA et quelles sont les exemptions prévues ?
5. Quelles sont les obligations de DORA concernant le partage d'informations sur les cybermenaces entre entités financières ?

### MiFID II (5 questions)

6. Quelles sont les obligations d'évaluation de l'adéquation (suitability) imposées par MiFID II aux entreprises d'investissement ?
7. Comment MiFID II réglemente-t-il la transparence pré-négociation et post-négociation pour les instruments de capitaux propres ?
8. Quelles sont les règles MiFID II applicables à la gouvernance des produits financiers (product governance) ?
9. Quels sont les critères de classement des clients en clients professionnels ou contreparties éligibles sous MiFID II ?
10. Quelles sont les exigences de MiFID II en matière de meilleure exécution (best execution) des ordres ?

### LCB-FT (5 questions)

11. Quelles sont les obligations de vigilance renforcée pour les personnes politiquement exposées (PPE) selon la réglementation LCB-FT ?
12. Comment le GAFI définit-il l'approche par les risques en matière de lutte contre le blanchiment de capitaux ?
13. Quelles sont les obligations de déclaration de soupçon à Tracfin et quels sont les délais applicables ?
14. Quelles sont les sanctions prévues par le Code monétaire et financier en cas de manquement aux obligations LCB-FT ?
15. Comment la 5ème directive anti-blanchiment renforce-t-elle la transparence des bénéficiaires effectifs ?

### UCITS (5 questions)

16. Quelles sont les limites d'investissement et règles de diversification applicables aux OPCVM selon la directive UCITS ?
17. Quelles sont les obligations du dépositaire d'un OPCVM en matière de garde des actifs et de surveillance ?
18. Comment la directive UCITS encadre-t-elle l'utilisation des instruments financiers dérivés par les OPCVM ?
19. Quelles informations doivent figurer dans le document d'informations clés (KIID/KID) d'un OPCVM ?
20. Quelles sont les conditions de passeport européen pour la commercialisation transfrontalière des OPCVM ?

### AIFMD (5 questions)

21. Quelles sont les obligations des gestionnaires de FIA en matière de gestion des risques selon la directive AIFM ?
22. Comment la directive AIFM réglemente-t-elle la politique de rémunération des gestionnaires de fonds alternatifs ?
23. Quelles sont les exigences de reporting aux autorités compétentes imposées par la directive AIFM (Annexe IV) ?
24. Quelles sont les règles de levier et de transparence applicables aux FIA sous la directive AIFM ?
25. Comment la directive AIFM encadre-t-elle la délégation de fonctions par les gestionnaires de FIA ?

### SFDR (5 questions)

26. Quelle est la différence entre un produit financier Article 8 et Article 9 au sens du règlement SFDR ?
27. Quelles sont les obligations de transparence des principales incidences négatives (PAI) selon le SFDR ?
28. Quelles informations précontractuelles doivent être fournies pour les produits financiers durables sous SFDR ?
29. Comment le SFDR interagit-il avec la taxonomie européenne pour la classification des investissements durables ?
30. Quelles sont les exigences de reporting périodique imposées par les RTS du règlement SFDR ?

### Transversal (3 questions)

31. Comment les exigences de DORA en matière de résilience numérique s'articulent-elles avec les obligations de continuité d'activité sous MiFID II pour les entreprises d'investissement ?
32. Quelles sont les interactions entre les obligations de vigilance LCB-FT et les règles de connaissance client (KYC) imposées par MiFID II et la directive AIFM ?
33. Comment un gestionnaire d'actifs doit-il concilier les exigences de transparence ESG du SFDR avec les obligations de reporting de la directive AIFM et les règles de gouvernance produit de MiFID II ?

---

## 9. Fichiers de référence

| Fichier | Contenu |
|---------|---------|
| `benchmark/full-benchmark-results.json` | Les 264 réponses complètes (33 questions × 8 systèmes) |
| `benchmark/grades-{cluster}.json` | Grilles de notation par cadre réglementaire |
| `benchmark/grades-{cluster}-summary.md` | Synthèse par cadre avec registre des hallucinations |
| `benchmark/METHODOLOGY.md` | Ce document |
| `scripts/rag-benchmark-v2.ts` | Script de collecte des réponses |
| `scripts/retry-benchmark-failures.ts` | Script de reprise en cas d'échec API |
