Cuando una empresa mexicana procesa documentos legales con inteligencia artificial, paga más que una empresa estadounidense por el mismo trabajo. No porque los proveedores cobren diferente. Sino porque la IA, literalmente, no habla tu idioma con la misma fluidez.

Probamos 8 modelos de IA con documentos legales reales — cláusulas NDA, actas constitutivas, documentos fiscales — en inglés y en español. Los resultados revelan un "impuesto lingüístico" invisible.

Qué es un token y por qué te debería importar

Los modelos de IA no leen palabras. Leen fragmentos de texto llamados tokens. A veces un token es una palabra completa ("contract" = 1 token). A veces es un pedazo de palabra ("cumplimiento" = "cum" + "pl" + "imiento" = 3 tokens).

¿Por qué importa? Porque todo se cobra por token. El precio de la API, el límite de memoria, la velocidad de respuesta — todo depende de cuántos tokens procese el modelo.

Y aquí viene el problema: los tokenizers — los algoritmos que dividen el texto en tokens — fueron entrenados mayoritariamente con texto en inglés.

Cómo funciona un tokenizer

El algoritmo se llama BPE (Byte Pair Encoding). Toma un corpus gigante de texto y empieza con caracteres individuales. Busca qué pares aparecen juntos más frecuentemente y los fusiona. "t" + "h" aparecen juntos millones de veces en inglés → se fusionan en "th". Luego "th" + "e" se vuelve "the". Y así miles de iteraciones hasta construir un vocabulario.

El resultado: las palabras comunes en inglés terminan como tokens compactos. Las palabras en español — especialmente las técnicas, legales o fiscales — nunca acumularon suficiente frecuencia para fusionarse. Se quedan fragmentadas.

La palabra "fideicomiso" — un concepto que mueve miles de millones de pesos al año en México — se descompone en 4 fragmentos sin sentido: "f", "ide", "icom", "iso". El tokenizer la trata como si fuera un error de teclado.

Lo que medimos: 8 modelos, documentos legales reales

Tomamos cláusulas NDA, constitutivas y fiscales en ambos idiomas y las pasamos por los tokenizers de 8 modelos. Todos los resultados fueron corregidos restando el baseline del prompt de sistema para obtener el sobrecosto real del texto.

  • GPT-4 y GPT-4o (OpenAI) — los modelos API más populares

  • Claude Sonnet 4 (Anthropic) — medido directamente vía API

  • Llama 2 (Meta) — modelo open source con vocabulario de 32K

  • Llama 3.3 70B (Meta) — ejecutado vía Groq

  • Qwen 3.5 9B (Alibaba) — ejecutado localmente en servidor propio

  • Qwen3 32B (Alibaba) — ejecutado vía Groq

  • GPT-OSS 120B (OpenAI) — modelo de pesos abiertos, licencia Apache 2.0

Resultado 1: La cláusula NDA

El mismo contrato de confidencialidad, procesado por cada modelo con baseline restado:

El rango va de +22.0% (Qwen 3.5 9B local) a +66.7% (Llama 3.3 y Qwen3 32B). Claude Sonnet 4 queda en +43.6%, peor que GPT-4 (+24.5%).

Resultado 2: Vocabulario legal mexicano

Medido con Claude Sonnet 4, los términos que más tokens consumen:

"Sociedad Anónima Promotora de Inversión de Capital Variable" consume 17 tokens. Este nombre aparece en cada escritura notarial de miles de empresas mexicanas.

Resultado 3: Más grande no significa más eficiente

Qwen3 32B fue el peor modelo para español (+66.7%), mientras que Qwen 3.5 9B — del mismo fabricante pero más pequeño — logró +22.0%. El número de parámetros no tiene relación con la eficiencia del tokenizer.

Resultado 4: El modelo local gana

El Qwen 3.5 9B ejecutado localmente en nuestro servidor tuvo el menor sobrecosto (+22.0%). Con inferencia local, además, el costo por token es cero — pagas electricidad y hardware, sin importar el idioma.

GPT-OSS: pesos abiertos, buen tokenizer

GPT-OSS 120B de OpenAI, con +34.4% de overhead, fue el mejor modelo de pesos abiertos. Tiene licencia Apache 2.0, 117B parámetros (5.1B activos, arquitectura Mixture-of-Experts), cabe en una sola GPU de 80GB. La versión de 20B funciona con 16GB de VRAM — hardware que ya tiene cualquier empresa con capacidad de procesamiento.

Qué significa para tu empresa

Si tu empresa procesa documentos legales, fiscales o notariales a través de APIs de IA, estás pagando un sobrecosto invisible. Con inferencia local este "impuesto lingüístico" desaparece.

Metodología

Los tokens se midieron usando tokenizers nativos y la API de cada modelo. Todos los resultados de APIs (Groq, Anthropic) fueron corregidos restando el baseline del prompt de sistema para obtener el conteo real de tokens del texto. Los tokenizers offline (GPT-4, Llama 2) no requieren corrección. Los textos son cláusulas legales estándar traducidas con equivalencia semántica.

En Leeuwwolk, procesamos documentos legales mexicanos con modelos de IA en infraestructura propia. Si quieres saber cuánto podrías estar ahorrando, contáctanos.