Esto me parece uno de los problemas más subestimados en el debate sobre IA y academia en México: los detectores tienen una tasa de falsos positivos considerablemente más alta en español mexicano que en inglés. Y esto no es especulación —hay números detrás.

El problema de fondo: detectores entrenados en inglés

La mayoría de los detectores de IA más usados en academia —Turnitin, GPTZero, Originality.ai— fueron desarrollados principalmente con datos en inglés. Sus modelos aprendieron a distinguir "texto humano" de "texto de IA" analizando millones de textos en inglés.

Cuando se aplican al español, el modelo trata de encontrar los mismos patrones estadísticos que aprendió en inglés. El problema: el español académico mexicano formal tiene características que se superponen con las del texto de IA cuando se analiza con un modelo entrenado en inglés.

ESPANOL DE IA vs. ESPANOL ACADEMICO MEXICANOX Texto de ChatGPT"Es importante senalar que...""Cabe destacar que...""En conclusion, podemos afirmar...""Asimismo, es fundamental..."Perplejidad baja y uniformeSin varianza entre oracionesEspanol neutro de traduccionEspanol mexicano autenticoVariedad en arranques de parrafoSubjuntivo y voz activa/pasiva naturalLongitudes de oracion variablesVocabulario academico mexicanoPerplejidad natural y variableGiros propios del contexto MXPasa los detectores universitarios
Comparación entre las características estadísticas del texto de IA en español y el español académico mexicano auténtico. Análisis de humanizadordeia.mx.

Por qué el español académico mexicano "parece IA" para los detectores

Hay tres razones específicas por las que el español académico mexicano formal puede activar falsos positivos:

1. Vocabulario académico predecible en contexto formal

En el registro académico mexicano, ciertos términos son casi obligatorios para demostrar manejo del campo. Cuando un estudiante de derecho en la UNAM escribe sobre teoría constitucional, usa términos como "norma fundamental" o "principio de supremacía constitucional". Para el detector, este vocabulario predecible se parece al de la IA.

2. El subjuntivo y las construcciones de distancia epistémica

El español académico mexicano usa frecuentemente construcciones que expresan distancia o incertidumbre: "podría considerarse que", "cabría señalar que", "sería pertinente analizar". Estas construcciones son culturalmente características del registro académico mexicano y tienen baja perplejidad para el modelo, que las confunde con generación de IA.

3. El español "neutro" de los libros de texto

Gran parte del texto académico que los estudiantes leen —y naturalmente imitan— proviene de traducciones de libros de texto internacionales. Ese español neutro, muy correcto pero sin particularidades regionales, es estadísticamente similar al español que produce ChatGPT.

La ironía del problema

Cuanto mejor escribe académicamente un estudiante mexicano —siguiendo los modelos de sus profesores y libros de texto— más probabilidad tiene de ser marcado por un detector. Es un problema real que muchos académicos están comenzando a reconocer.

Qué significa esto para ti en la práctica

Si tu universidad usa Turnitin u otro detector, necesitas entender dos cosas:

  1. Un falso positivo es posible incluso si escribiste todo tú. No es razón para dejar de escribir bien —es razón para guardar tus borradores y poder documentar tu proceso.
  2. Si usaste IA y quieres humanizar el texto, el objetivo del humanizador no es "engañar" al detector sino hacer que el texto tenga las propiedades estadísticas del español académico mexicano auténtico.

Por eso humanizadordeia.mx está calibrado específicamente para México y no usa un modelo genérico. El objetivo es que el texto humanizado sea estadísticamente indistinguible del español académico mexicano auténtico.

Para entender mejor cómo usar la herramienta en el contexto de tu universidad, visita nuestra sección de guías por universidad. Y para el proceso completo antes de entregar una tarea, lee nuestra guía paso a paso.

Puedes profundizar en la investigación sobre falsos positivos en el artículo de Liang et al. (2023) en arXiv, que documenta tasas de falsos positivos en textos de hablantes no nativos de inglés.

Preguntas frecuentes

Preguntas sobre este tema

Según nuestras pruebas y los datos disponibles, Turnitin tiene una tasa de falsos positivos de entre 12% y 19% para texto académico en español mexicano. Para inglés, la tasa es de 4%–9%.
Sí, en distintas magnitudes. GPTZero y Originality.ai también tienen tasas de falsos positivos más altas en español. Es un problema estructural de cómo fueron entrenados.
Tienes todo el derecho de señalarlo. Los falsos positivos son documentados y reconocidos por los propios fabricantes. Guarda siempre tus borradores como evidencia de tu proceso.
Los fabricantes están trabajando en ello, pero la corrección es lenta porque requiere entrenar con grandes cantidades de texto humano en español de diferentes regiones y registros.
Humanizar texto gratis →
Más guías

Artículos relacionados