Cuando una empresa mexicana procesa documentos legales con inteligencia artificial, paga más que una empresa estadounidense por el mismo trabajo. No porque los proveedores cobren diferente. Sino porque la IA, literalmente, no habla tu idioma con la misma fluidez.
Probamos 8 modelos de IA con documentos legales reales — cláusulas NDA, actas constitutivas, documentos fiscales — en inglés y en español. Los resultados revelan un "impuesto lingüístico" invisible.
Qué es un token y por qué te debería importar
Los modelos de IA no leen palabras. Leen fragmentos de texto llamados tokens. A veces un token es una palabra completa ("contract" = 1 token). A veces es un pedazo de palabra ("cumplimiento" = "cum" + "pl" + "imiento" = 3 tokens).
¿Por qué importa? Porque todo se cobra por token. El precio de la API, el límite de memoria, la velocidad de respuesta — todo depende de cuántos tokens procese el modelo.
Y aquí viene el problema: los tokenizers — los algoritmos que dividen el texto en tokens — fueron entrenados mayoritariamente con texto en inglés.
Cómo funciona un tokenizer
El algoritmo se llama BPE (Byte Pair Encoding). Toma un corpus gigante de texto y empieza con caracteres individuales. Busca qué pares aparecen juntos más frecuentemente y los fusiona. "t" + "h" aparecen juntos millones de veces en inglés → se fusionan en "th". Luego "th" + "e" se vuelve "the". Y así miles de iteraciones hasta construir un vocabulario.
El resultado: las palabras comunes en inglés terminan como tokens compactos. Las palabras en español — especialmente las técnicas, legales o fiscales — nunca acumularon suficiente frecuencia para fusionarse. Se quedan fragmentadas.
La palabra "fideicomiso" — un concepto que mueve miles de millones de pesos al año en México — se descompone en 4 fragmentos sin sentido: "f", "ide", "icom", "iso". El tokenizer la trata como si fuera un error de teclado.
Lo que medimos: 8 modelos, documentos legales reales
Tomamos cláusulas NDA, constitutivas y fiscales en ambos idiomas y las pasamos por los tokenizers de 8 modelos. Todos los resultados fueron corregidos restando el baseline del prompt de sistema para obtener el sobrecosto real del texto.
GPT-4 y GPT-4o (OpenAI) — los modelos API más populares
Claude Sonnet 4 (Anthropic) — medido directamente vía API
Llama 2 (Meta) — modelo open source con vocabulario de 32K
Llama 3.3 70B (Meta) — ejecutado vía Groq
Qwen 3.5 9B (Alibaba) — ejecutado localmente en servidor propio
Qwen3 32B (Alibaba) — ejecutado vía Groq
GPT-OSS 120B (OpenAI) — modelo de pesos abiertos, licencia Apache 2.0
Resultado 1: La cláusula NDA
El mismo contrato de confidencialidad, procesado por cada modelo con baseline restado:
El rango va de +22.0% (Qwen 3.5 9B local) a +66.7% (Llama 3.3 y Qwen3 32B). Claude Sonnet 4 queda en +43.6%, peor que GPT-4 (+24.5%).
Resultado 2: Vocabulario legal mexicano
Medido con Claude Sonnet 4, los términos que más tokens consumen:
"Sociedad Anónima Promotora de Inversión de Capital Variable" consume 17 tokens. Este nombre aparece en cada escritura notarial de miles de empresas mexicanas.
Resultado 3: Más grande no significa más eficiente
Qwen3 32B fue el peor modelo para español (+66.7%), mientras que Qwen 3.5 9B — del mismo fabricante pero más pequeño — logró +22.0%. El número de parámetros no tiene relación con la eficiencia del tokenizer.
Resultado 4: El modelo local gana
El Qwen 3.5 9B ejecutado localmente en nuestro servidor tuvo el menor sobrecosto (+22.0%). Con inferencia local, además, el costo por token es cero — pagas electricidad y hardware, sin importar el idioma.
GPT-OSS: pesos abiertos, buen tokenizer
GPT-OSS 120B de OpenAI, con +34.4% de overhead, fue el mejor modelo de pesos abiertos. Tiene licencia Apache 2.0, 117B parámetros (5.1B activos, arquitectura Mixture-of-Experts), cabe en una sola GPU de 80GB. La versión de 20B funciona con 16GB de VRAM — hardware que ya tiene cualquier empresa con capacidad de procesamiento.
Qué significa para tu empresa
Si tu empresa procesa documentos legales, fiscales o notariales a través de APIs de IA, estás pagando un sobrecosto invisible. Con inferencia local este "impuesto lingüístico" desaparece.
Metodología
Los tokens se midieron usando tokenizers nativos y la API de cada modelo. Todos los resultados de APIs (Groq, Anthropic) fueron corregidos restando el baseline del prompt de sistema para obtener el conteo real de tokens del texto. Los tokenizers offline (GPT-4, Llama 2) no requieren corrección. Los textos son cláusulas legales estándar traducidas con equivalencia semántica.
En Leeuwwolk, procesamos documentos legales mexicanos con modelos de IA en infraestructura propia. Si quieres saber cuánto podrías estar ahorrando, contáctanos.