Evaluation
Retrieval-Qualität, transparent gemessen
Evaluiert auf dem GerLeRB-Datensatz: 367 juristische Fragen, 58 Gesetzbücher. Wir messen Paragraphen-Retrieval (findet die Suche den richtigen §?) und LLM-QA (zitiert das LLM den richtigen §?).
Verbesserung
Weniger Halluzinationen, messbar belegt
MCP-Zugang reduziert falsche Zitate spürbar — unabhängig vom eingesetzten LLM.
Haiku 4.5
64%
weniger falsche Antworten
Fehlerrate ohne MCP
58.9%
Fehlerrate mit MCP
21.3%
Sonnet 4.6
46%
weniger falsche Antworten
Fehlerrate ohne MCP
18.5%
Fehlerrate mit MCP
10.1%
Opus 4.6
51%
weniger falsche Antworten
Fehlerrate ohne MCP
18.3%
Fehlerrate mit MCP
9.0%
GPT-5.4 Nano
32%
weniger falsche Antworten
Fehlerrate ohne MCP
42.5%
Fehlerrate mit MCP
28.9%
Gemini 3.1 Flash Lite
37%
weniger falsche Antworten
Fehlerrate ohne MCP
36.8%
Fehlerrate mit MCP
23.2%
LLM-Benchmark
LLM-Modelle mit und ohne MCP
Das LLM erhält eine Frage und generiert eine Freitextantwort. Zitierte Normen werden per Regex extrahiert und gegen den Gold-Paragraphen geprüft.
Haiku 4.5
Ohne MCP41.1%
Mit MCP78.8%
Sonnet 4.6
Ohne MCP81.5%
Mit MCP89.9%
Opus 4.6
Ohne MCP81.7%
Mit MCP91.0%
GPT-5.4 Nano
Ohne MCP57.5%
Mit MCP71.1%
Gemini 3.1 Flash Lite
Ohne MCP63.2%
Mit MCP76.8%
LLM-Benchmark
Ohne MCP
Final
41.1%
Trefferquote
Fragen: 151/367
Ø Dauer: 20.17s
Mit MCP
Final
78.8%
Trefferquote
Fragen: 289/367
Ø Dauer: 25.08s
Mit MCP vs. ohne MCP: +37.6 Prozentpunkte Trefferquote
Ø Latenz 20.17s → 25.08s
Verglichen über 367 gemeinsame Fragen
LLM
LLM-Beispiele
Wie verändert der MCP-Zugang die Antwortqualität bei konkreten Rechtsfragen?
MCP hat geholfen
Grenzen
Sind Wertaufholungen nach einer Teilwertabschreibung steuerfrei, wenn der ursprüngliche Abschreibungsbetrag nicht durch einen höheren Wert wieder ausgeglichen wurde?
Sonnet 4.6
Erwartet: § 8b KStG
Ohne MCP:§ 6 EStG, § 5 EStG
Mit MCP:§ 8b KStG
Ohne MCP: EStG zitiert (falsches Gesetz). Mit MCP: KStG korrekt — Spezialgesetz für Körperschaften.
Wann kann ich gezahlte Versicherungsbeiträge nach Kündigung einer Lebensversicherung zurückverlangen?
Erwartet: § 812 BGB
Ohne MCP: § 169 VVG, § 168 VVG, § 812 BGB
Mit MCP: § 169 VVG, § 152 VVG
Ohne MCP: § 812 BGB korrekt unter den Zitaten. Mit MCP: nur VVG-Normen — MCP hat zur spezifischeren, aber falschen Quelle gelenkt.
Wann muss eine medizinische Untersuchung vor einer Verpflichtung zum Wehrdienst erfolgen?
Sonnet 4.6
Erwartet: § 71 SG
Ohne MCP:§ 17 WPflG, § 16 WPflG
Mit MCP:§ 71 SG
Ohne MCP: WPflG (Wehrpflichtgesetz). Mit MCP: SG (Soldatengesetz) — korrekte Rechtsgrundlage.
Darf ein Gericht einem Kläger mehr zusprechen als dieser beantragt hat?
Erwartet: § 88 VwGO
Ohne MCP: § 308 ZPO
Mit MCP: § 308 ZPO
§ 308 ZPO ist für Zivilprozess korrekt. Gold bezieht sich auf § 88 VwGO (Verwaltungsprozess) — Benchmark-Limitation bei fachübergreifenden Fragen.
Retrieval
Retrieval-Beispiele
Konkrete Suchanfragen aus dem Benchmark — was findet die Suche auf Rang 1, und wo greift sie daneben?
Treffer
Fehlschläge
Herausgabeanspruch ungerechtfertigte Bereicherung ohne Rechtsgrund BGB
Erwartet: § 812 BGB
Zivilrecht — Rang 1. Bereicherungsrecht korrekt identifiziert.
Zugang Steuerbescheid trotz Zustellungsmangel Heilung Formfehler AO Abgabenordnung
Erwartet: § 122 AO
Erhalten: § 126 AO, § 173a AO, § 8 VwZG
Richtiges Gesetz (AO), falscher Paragraph — Heilungsvorschrift statt Zugangsfiktion.
Nichtannahme Verfassungsbeschwerde ohne Begründung BVerfGG
Erwartet: § 93d BVerfGG
Verfassungsrecht — Rang 1. Verfahrensvorschrift korrekt gefunden.
Zugang elektronische Willenserklärung E-Mail außerhalb Geschäftszeiten BGB
Erwartet: § 130 BGB
Erhalten: § 126a BGB, § 312f BGB, § 312b BGB
Elektronische Form statt Zugangsnorm — semantisch verwandt, aber falsche Rechtsfolge.
Paragraphen-Retrieval
Vergleich mit publizierten Baselines
Unsere Evaluation nutzt reformulierte Suchanfragen. GerLeRB stellt pro Frage eine reformulierte Variante bereit.
MRR@10
BM250.2347
DuoT50.2861
MonoT50.3799
// LAWBSTER0.6756
NDCG@10
BM250.3028
DuoT50.3424
MonoT50.4242
// LAWBSTER0.7471
P@10
BM250.0365
MonoT50.0520
DuoT50.0520
// LAWBSTER0.0926
Recall@10
0.9264
Nur // LAWBSTER – keine Vergleichswerte in den Paper-Baselines verfügbar.
P@1
0.5640
Nur // LAWBSTER – keine Vergleichswerte in den Paper-Baselines verfügbar.
+77.8 % vs. MonoT5
Unsere Evaluation nutzt reformulierte Suchanfragen. GerLeRB stellt pro Frage eine reformulierte Variante bereit. · GerLeRB · reformulated Fragen
Methodik
Methodik & Limitationen
Datensatz
GerLeRB: 367 juristische Fragen, 58 Gesetzbücher, binäre Relevanz (ein Gold-Dokument pro Frage).
Retrieval-Setup
Hybride Suche (Vektorsuche + BM25) mit Cross-Encoder-Reranking, top_k=10, reformulierte Suchanfragen.
LLM-Setup
Claude Opus 4.6, Sonnet 4.6 und Haiku 4.5 über Claude CLI, identische Fragen mit und ohne MCP-Tools, Zitations-Extraktion per Regex aus Freitext.
Limitationen
- Ein Gold-Dokument pro Frage — alternative korrekte Antworten werden nicht als Treffer gewertet.
- 58 von rund 11.000 indexierten Gesetzen durch den Datensatz abgedeckt.
- Regex-basierte Zitations-Extraktion kann ungewöhnliche Formate verpassen.
- Kein Signifikanztest durchgeführt.
- Reformulierte Suchanfragen können die Retrieval-Ergebnisse gegenüber den Originalfragen positiv verzerren.
Rohdaten
Rohdaten & Reproduzierbarkeit
Datensatz bei Zenodo: 10.5281/zenodo.15745124