Esto me parece uno de los problemas más subestimados en el debate sobre IA y academia en México: los detectores tienen una tasa de falsos positivos considerablemente más alta en español mexicano que en inglés. Y esto no es especulación —hay números detrás.
El problema de fondo: detectores entrenados en inglés
La mayoría de los detectores de IA más usados en academia —Turnitin, GPTZero, Originality.ai— fueron desarrollados principalmente con datos en inglés. Sus modelos aprendieron a distinguir "texto humano" de "texto de IA" analizando millones de textos en inglés.
Cuando se aplican al español, el modelo trata de encontrar los mismos patrones estadísticos que aprendió en inglés. El problema: el español académico mexicano formal tiene características que se superponen con las del texto de IA cuando se analiza con un modelo entrenado en inglés.
Por qué el español académico mexicano "parece IA" para los detectores
Hay tres razones específicas por las que el español académico mexicano formal puede activar falsos positivos:
1. Vocabulario académico predecible en contexto formal
En el registro académico mexicano, ciertos términos son casi obligatorios para demostrar manejo del campo. Cuando un estudiante de derecho en la UNAM escribe sobre teoría constitucional, usa términos como "norma fundamental" o "principio de supremacía constitucional". Para el detector, este vocabulario predecible se parece al de la IA.
2. El subjuntivo y las construcciones de distancia epistémica
El español académico mexicano usa frecuentemente construcciones que expresan distancia o incertidumbre: "podría considerarse que", "cabría señalar que", "sería pertinente analizar". Estas construcciones son culturalmente características del registro académico mexicano y tienen baja perplejidad para el modelo, que las confunde con generación de IA.
3. El español "neutro" de los libros de texto
Gran parte del texto académico que los estudiantes leen —y naturalmente imitan— proviene de traducciones de libros de texto internacionales. Ese español neutro, muy correcto pero sin particularidades regionales, es estadísticamente similar al español que produce ChatGPT.
Cuanto mejor escribe académicamente un estudiante mexicano —siguiendo los modelos de sus profesores y libros de texto— más probabilidad tiene de ser marcado por un detector. Es un problema real que muchos académicos están comenzando a reconocer.
Qué significa esto para ti en la práctica
Si tu universidad usa Turnitin u otro detector, necesitas entender dos cosas:
- Un falso positivo es posible incluso si escribiste todo tú. No es razón para dejar de escribir bien —es razón para guardar tus borradores y poder documentar tu proceso.
- Si usaste IA y quieres humanizar el texto, el objetivo del humanizador no es "engañar" al detector sino hacer que el texto tenga las propiedades estadísticas del español académico mexicano auténtico.
Por eso humanizadordeia.mx está calibrado específicamente para México y no usa un modelo genérico. El objetivo es que el texto humanizado sea estadísticamente indistinguible del español académico mexicano auténtico.
Para entender mejor cómo usar la herramienta en el contexto de tu universidad, visita nuestra sección de guías por universidad. Y para el proceso completo antes de entregar una tarea, lee nuestra guía paso a paso.
Puedes profundizar en la investigación sobre falsos positivos en el artículo de Liang et al. (2023) en arXiv, que documenta tasas de falsos positivos en textos de hablantes no nativos de inglés.