Wenn ein mexikanisches Unternehmen Rechtsdokumente mit KI verarbeitet, zahlt es mehr als ein amerikanisches Unternehmen für dieselbe Arbeit. Nicht weil die Anbieter unterschiedlich abrechnen. Sondern weil KI Ihre Sprache buchstäblich nicht genauso flüssig spricht.
Wir haben 8 KI-Modelle mit echten Rechtsdokumenten getestet — NDA-Klauseln, Gesellschaftsverträge, Steuervorschriften — auf Englisch und Spanisch. Die Ergebnisse offenbaren eine unsichtbare „Sprachsteuer".
Was ist ein Token und warum sollte es Sie interessieren
KI-Modelle lesen keine Wörter. Sie lesen Textfragmente — Tokens. Manchmal ist ein Token ein vollständiges Wort ("contract" = 1 Token). Manchmal ein Wortteil ("cumplimiento" = "cum" + "pl" + "imiento" = 3 Tokens).
Warum ist das wichtig? Weil alles pro Token berechnet wird. API-Preise, Speicherlimits, Antwortgeschwindigkeit — alles hängt davon ab, wie viele Tokens das Modell verarbeitet.
Das Problem: Tokenizer — die Algorithmen, die Text in Tokens aufteilen — wurden überwiegend mit englischsprachigem Text trainiert.
Wie ein Tokenizer funktioniert
Der Algorithmus heißt BPE (Byte Pair Encoding). Er nimmt einen riesigen Textkorpus und beginnt mit einzelnen Zeichen. Er sucht, welche Zeichenpaare am häufigsten zusammen vorkommen, und verschmilzt sie. "t" + "h" kommen im Englischen millionenfach zusammen vor → "th". Dann "th" + "e" → "the". So über Tausende Iterationen, bis ein Vokabular aufgebaut ist.
Das Ergebnis: Häufige englische Wörter werden zu kompakten Tokens. Spanische Wörter — insbesondere fachliche, juristische oder steuerliche — haben nie genug Häufigkeit angesammelt. Sie bleiben fragmentiert.
"fideicomiso" (Treuhandvermögen) wird in 4 bedeutungslose Fragmente zerlegt: "f", "ide", "icom", "iso". Der Tokenizer behandelt es wie einen Tippfehler.
Was wir gemessen haben: 8 Modelle, echte Rechtsdokumente
Wir haben NDA-, Gründungs- und Steuerklauseln in beiden Sprachen durch 8 Modelle laufen lassen. Alle Ergebnisse wurden um den System-Prompt-Baseline korrigiert.
GPT-4 / GPT-4o (OpenAI), Claude Sonnet 4 (Anthropic), Llama 2 (Meta), Llama 3.3 70B (Meta · Groq), Qwen 3.5 9B (Alibaba · lokal), Qwen3 32B (Alibaba · Groq), GPT-OSS 120B (OpenAI · Groq)
Ergebnis 1: Die NDA-Klausel
Bandbreite: +22,0 % (Qwen 3.5 lokal) bis +66,7 % (Llama 3.3 / Qwen3 32B). Claude Sonnet 4 liegt bei +43,6 %, schlechter als GPT-4 (+24,5 %).
Ergebnis 2: Mexikanisches Fachvokabular
"Sociedad Anónima Promotora de Inversión de Capital Variable" — die Rechtsform tausender mexikanischer Unternehmen — verbraucht 17 Tokens in jedem Modell.
Ergebnis 3: Größer ≠ effizienter
Qwen3 32B: +66,7 %. Qwen 3.5 9B (kleiner, neuer): +22,0 %. Die Parameterzahl korreliert nicht mit Tokenizer-Effizienz.
Ergebnis 4: Das lokale Modell gewinnt
Qwen 3.5 9B lokal hatte den geringsten Mehraufwand (+22,0 %). Mit lokaler Inferenz ist die „Sprachsteuer" null.
GPT-OSS: offene Gewichte, guter Tokenizer
GPT-OSS 120B von OpenAI (+34,4 %) war das beste Open-Weight-Modell. Apache-2.0-Lizenz, 117B Parameter (5,1B aktiv, MoE), passt auf eine 80-GB-GPU. Die 20B-Version läuft auf 16 GB VRAM.
Was das für Ihr Unternehmen bedeutet
Wenn Sie Rechtsdokumente über KI-APIs verarbeiten, zahlen Sie einen unsichtbaren Aufschlag. Mit lokaler Inferenz verschwindet diese Sprachsteuer.
Bei Leeuwwolk verarbeiten wir mexikanische Rechtsdokumente auf eigener Infrastruktur. Kontaktieren Sie uns.