Evaluation

Retrieval-Qualität, transparent gemessen

Evaluiert auf dem GerLeRB-Datensatz: 367 juristische Fragen, 58 Gesetzbücher. Wir messen Paragraphen-Retrieval (findet die Suche den richtigen §?) und LLM-QA (zitiert das LLM den richtigen §?).

Verbesserung

Weniger Halluzinationen, messbar belegt

MCP-Zugang reduziert falsche Zitate spürbar — unabhängig vom eingesetzten LLM.

Haiku 4.5
64%
weniger falsche Antworten
Fehlerrate ohne MCP
58.9%
Fehlerrate mit MCP
21.3%
Sonnet 4.6
46%
weniger falsche Antworten
Fehlerrate ohne MCP
18.5%
Fehlerrate mit MCP
10.1%
Opus 4.6
51%
weniger falsche Antworten
Fehlerrate ohne MCP
18.3%
Fehlerrate mit MCP
9.0%
GPT-5.4 Nano
32%
weniger falsche Antworten
Fehlerrate ohne MCP
42.5%
Fehlerrate mit MCP
28.9%
Gemini 3.1 Flash Lite
37%
weniger falsche Antworten
Fehlerrate ohne MCP
36.8%
Fehlerrate mit MCP
23.2%
LLM-Benchmark

LLM-Modelle mit und ohne MCP

Haiku 4.5

Ohne MCP41.1%
Mit MCP78.8%

Sonnet 4.6

Ohne MCP81.5%
Mit MCP89.9%

Opus 4.6

Ohne MCP81.7%
Mit MCP91.0%

GPT-5.4 Nano

Ohne MCP57.5%
Mit MCP71.1%

Gemini 3.1 Flash Lite

Ohne MCP63.2%
Mit MCP76.8%
LLM-Benchmark
Ohne MCP
Final
41.1%
Trefferquote
Fragen: 151/367
Ø Dauer: 20.17s
Mit MCP
Final
78.8%
Trefferquote
Fragen: 289/367
Ø Dauer: 25.08s
Mit MCP vs. ohne MCP: +37.6 Prozentpunkte Trefferquote
Ø Latenz 20.17s → 25.08s
Verglichen über 367 gemeinsame Fragen
LLM

LLM-Beispiele

Wie verändert der MCP-Zugang die Antwortqualität bei konkreten Rechtsfragen?

MCP hat geholfen

Grenzen

Sind Wertaufholungen nach einer Teilwertabschreibung steuerfrei, wenn der ursprüngliche Abschreibungsbetrag nicht durch einen höheren Wert wieder ausgeglichen wurde?
Sonnet 4.6
Erwartet: § 8b KStG
Ohne MCP:§ 6 EStG, § 5 EStG
Mit MCP:§ 8b KStG
Ohne MCP: EStG zitiert (falsches Gesetz). Mit MCP: KStG korrekt — Spezialgesetz für Körperschaften.
Wann kann ich gezahlte Versicherungsbeiträge nach Kündigung einer Lebensversicherung zurückverlangen?
Erwartet: § 812 BGB
Ohne MCP: § 169 VVG, § 168 VVG, § 812 BGB
Mit MCP: § 169 VVG, § 152 VVG
Ohne MCP: § 812 BGB korrekt unter den Zitaten. Mit MCP: nur VVG-Normen — MCP hat zur spezifischeren, aber falschen Quelle gelenkt.
Wann muss eine medizinische Untersuchung vor einer Verpflichtung zum Wehrdienst erfolgen?
Sonnet 4.6
Erwartet: § 71 SG
Ohne MCP:§ 17 WPflG, § 16 WPflG
Mit MCP:§ 71 SG
Ohne MCP: WPflG (Wehrpflichtgesetz). Mit MCP: SG (Soldatengesetz) — korrekte Rechtsgrundlage.
Darf ein Gericht einem Kläger mehr zusprechen als dieser beantragt hat?
Erwartet: § 88 VwGO
Ohne MCP: § 308 ZPO
Mit MCP: § 308 ZPO
§ 308 ZPO ist für Zivilprozess korrekt. Gold bezieht sich auf § 88 VwGO (Verwaltungsprozess) — Benchmark-Limitation bei fachübergreifenden Fragen.
Retrieval

Retrieval-Beispiele

Konkrete Suchanfragen aus dem Benchmark — was findet die Suche auf Rang 1, und wo greift sie daneben?

Treffer

Fehlschläge

Herausgabeanspruch ungerechtfertigte Bereicherung ohne Rechtsgrund BGB
Erwartet: § 812 BGB
Zivilrecht — Rang 1. Bereicherungsrecht korrekt identifiziert.
Zugang Steuerbescheid trotz Zustellungsmangel Heilung Formfehler AO Abgabenordnung
Erwartet: § 122 AO
Erhalten: § 126 AO, § 173a AO, § 8 VwZG
Richtiges Gesetz (AO), falscher Paragraph — Heilungsvorschrift statt Zugangsfiktion.
Nichtannahme Verfassungsbeschwerde ohne Begründung BVerfGG
Erwartet: § 93d BVerfGG
Verfassungsrecht — Rang 1. Verfahrensvorschrift korrekt gefunden.
Zugang elektronische Willenserklärung E-Mail außerhalb Geschäftszeiten BGB
Erwartet: § 130 BGB
Erhalten: § 126a BGB, § 312f BGB, § 312b BGB
Elektronische Form statt Zugangsnorm — semantisch verwandt, aber falsche Rechtsfolge.
Paragraphen-Retrieval

Vergleich mit publizierten Baselines

Unsere Evaluation nutzt reformulierte Suchanfragen. GerLeRB stellt pro Frage eine reformulierte Variante bereit.

MRR@10

BM250.2347
DuoT50.2861
MonoT50.3799
// LAWBSTER0.6756

NDCG@10

BM250.3028
DuoT50.3424
MonoT50.4242
// LAWBSTER0.7471

P@10

BM250.0365
MonoT50.0520
DuoT50.0520
// LAWBSTER0.0926
Recall@10
0.9264
Nur // LAWBSTER – keine Vergleichswerte in den Paper-Baselines verfügbar.
P@1
0.5640
Nur // LAWBSTER – keine Vergleichswerte in den Paper-Baselines verfügbar.
+77.8 % vs. MonoT5

Unsere Evaluation nutzt reformulierte Suchanfragen. GerLeRB stellt pro Frage eine reformulierte Variante bereit. · GerLeRB · reformulated Fragen

Methodik

Methodik & Limitationen

Datensatz
GerLeRB: 367 juristische Fragen, 58 Gesetzbücher, binäre Relevanz (ein Gold-Dokument pro Frage).
Retrieval-Setup
Hybride Suche (Vektorsuche + BM25) mit Cross-Encoder-Reranking, top_k=10, reformulierte Suchanfragen.
LLM-Setup
Claude Opus 4.6, Sonnet 4.6 und Haiku 4.5 über Claude CLI, identische Fragen mit und ohne MCP-Tools, Zitations-Extraktion per Regex aus Freitext.
Limitationen
  • Ein Gold-Dokument pro Frage — alternative korrekte Antworten werden nicht als Treffer gewertet.
  • 58 von rund 11.000 indexierten Gesetzen durch den Datensatz abgedeckt.
  • Regex-basierte Zitations-Extraktion kann ungewöhnliche Formate verpassen.
  • Kein Signifikanztest durchgeführt.
  • Reformulierte Suchanfragen können die Retrieval-Ergebnisse gegenüber den Originalfragen positiv verzerren.
Rohdaten

Rohdaten & Reproduzierbarkeit

TypFragenStatusDatumDownload
Retrieval Results367
Final
11.03.2026
LLM Sonnet 4.6 (without MCP)367
Final
11.03.2026
LLM Sonnet 4.6 (with MCP)367
Final
11.03.2026
LLM Haiku 4.5 (without MCP)367
Final
12.03.2026
LLM Haiku 4.5 (with MCP)367
Final
12.03.2026
LLM GPT-5.4 Nano (without MCP)367
Final
08.04.2026
LLM GPT-5.4 Nano (with MCP)367
Final
08.04.2026
LLM Gemini 3.1 Flash Lite (without MCP)367
Final
07.04.2026
LLM Gemini 3.1 Flash Lite (with MCP)367
Final
08.04.2026
LLM Opus 4.6 (without MCP)367
Final
20.03.2026
LLM Opus 4.6 (with MCP)367
Final
23.03.2026
Datensatz bei Zenodo: 10.5281/zenodo.15745124