Por Dr. Luis Enrique Sánchez Díaz
No recuerdo exactamente cuándo escuché por primera vez el término tokenización, pero estoy casi seguro de que no fue en una clase de metodología ni en una conferencia académica. Más bien fue en una conversación algo incómoda con un estudiante que estaba usando ChatGPT para analizar entrevistas. Me dijo que el modelo había “extraído los tokens más representativos”. Así, sin drama. Como quien resume una película o saca fotocopias.
Yo, que había pasado años discutiendo con colegas si el análisis de contenido debía hacerse por párrafos, líneas o unidades de sentido… me sentí un poco ridículo. ¿Tokens? ¿Desde cuándo eso era un criterio válido para analizar discurso?
Me picó la curiosidad. Abrí algunos artículos técnicos. Leí definiciones. Vi ejemplos. Al cabo de unos días, entendí —más o menos— que tokenizar significa fragmentar el lenguaje en unidades manejables para la máquina. A veces palabras completas, a veces sílabas, a veces… cosas que ya no sé si son lenguaje o un residuo de él. Fragmentos que por sí solos no significan nada, pero que al modelo le sirven para “entender”.
Ahí fue cuando me sentí incómodo. No por el concepto en sí, sino por lo que implica para quienes investigamos desde el lenguaje, desde la historia, desde el conflicto social. Porque una cosa es usar IA para traducir una fuente o para depurar un cuestionario, y otra muy distinta es aceptar que nuestras unidades mínimas de análisis ahora se definen según la lógica del cómputo, no del sentido.
Hace unos meses di un taller sobre análisis del discurso. En medio de la sesión, una alumna levantó la mano y preguntó si podía usar ChatGPT para clasificar los temas de las entrevistas. Antes de que pudiera responder, otro estudiante explicó que lo había hecho “tokenizando el corpus y usando embeddings para reducir dimensionalidad”. Yo le pregunté si sabía qué era un embedding y me respondió —sin ironía—: “pues… como convertir las palabras en puntos para hacer clusters”.
No está mal. Técnicamente no está mal. Pero entonces, ¿qué hacemos con la polisemia, con la ironía, con los silencios que atraviesan un testimonio? ¿Dónde se quedan las pausas incómodas de una entrevista con una víctima, el tono agresivo que no se transcribe, el gesto que no entra en la matriz?
Honestamente, yo mismo he usado estos modelos. Y sí: me han ahorrado tiempo. Incluso me han sugerido formas de formular mejor mis hipótesis. Pero cuando empiezo a ver que se naturaliza —incluso en espacios académicos— esta lógica de fragmentar el lenguaje para hacerlo útil, me entra cierta desconfianza. Porque útil para quién, me pregunto. ¿Para el algoritmo? ¿Para el evaluador? ¿Para el sentido?
Tokenizar no es inocente. Es una operación de poder, una forma de domesticar el discurso para que encaje en estructuras que no fueron pensadas para comprender, sino para predecir.
Y en el fondo, lo que me molesta no es que existan estas técnicas. Lo que me incomoda es lo fácil que muchos investigadores —incluso jóvenes— están dispuestos a renunciar a la complejidad del lenguaje, a su ambigüedad, por una tabla ordenada de tokens que puede graficarse en tres dimensiones.
Una colega —lingüista, afilada, irónica— me dijo hace poco: “esto de la tokenización es como pedirle a una computadora que lea a Rosario Castellanos en fragmentos de tres sílabas, y que luego decida de qué trata el texto”. Nos reímos. Pero no tanto. Porque algo de eso está ocurriendo.
No quiero sonar apocalíptico, pero tampoco ingenuo. Hay mucho que podemos ganar si incorporamos estas tecnologías con criterio. Pero también hay mucho que podemos perder si dejamos que redefinan nuestras formas de ver el mundo sin darnos cuenta.
El lenguaje no es solo un dato. No es una base. No es una columna en Excel.
A veces es la única forma de resistencia que queda.
Y a mí —aunque use IA, aunque la enseñe, aunque me maraville con ella— eso no se me olvida.
✍️ Sobre el autor
Luis Enrique Sánchez Díaz es Doctor en Ciencias Sociales, investigador y profesor universitario en áreas como metodología de la investigación, comunicación política y epistemología crítica. Ha acompañado a cientos de estudiantes en el desarrollo de tesis y proyectos de investigación en México y América Latina. En sus textos combina la experiencia docente con una mirada crítica sobre el impacto de la tecnología en las ciencias sociales.
📍[Ciudad de Puebla, México]
