Un nuevo estudio realizado por especialistas de universidades americanas demostró que la exposición continua a textos ‘basura’ en Internet induce al deterioro cognitivo durable en modelos de lenguaje grandes (LLM), una de las herramientas más utilizadas dentro del campo de la inteligencia artificial (IA).
La información fue extraída de publicaciones en la plataforma X (anteriormente conocida como Twitter). Se definieron dos grupos de datos diferentes: un conjunto de datos basura (tomado principalmente de tuits populares con datos poco fiables y bajo nivel de información) y un grupo de control (con información contrastada, utilizada como referencia).
Estos fueron analizados en base a dos criterios independientes: el grado de compromisoque mide parámetros cuantitativos externos al propio texto, como la popularidad (número de ‘me gusta’, retuits, etc.), y la calidad semántica, lo cual tiene que ver con el significado y la calidad del contenido.
Resultados
Los investigadores descubrieron que el entrenamiento continuo de cuatro LLM con datos basura, en comparación con el grupo de control, generó en la IA un pendiente significativa en el razonamiento, la comprensión de contextos largos, la confianza y el aumento de los «rasgos oscuros» (que en los modelos de lenguaje son respuestas o patrones que se consideran problemáticos en la psicología de la personalidad, como psicopatía y narcisismo).
Además, el análisis reveló que, después de la formación, los LLM a menudo Se saltaron la fase de pensamiento, es decir, omitieron varias cadenas de razonamiento. Además, se observó una recuperación incompleta: volver a entrenar los modelos con «datos limpios» disminuyó el deterioro cognitivo, pero no restableció la capacidad inicial.
Perspectivas
Los resultados proporcionan una fuerte evidencia de que La calidad de los datos es un factor causal en el deterioro de la capacidad de LLMpor lo que los autores advierten que se deberían realizar ‘controles de salud cognitiva’ con mayor frecuencia para los modelos utilizados actualmente.
Asimismo, los expertos consideran necesario reexaminar la actual recopilación de datos de Internet y las prácticas de formación previa en curso. A medida que los LLM se expanden y consumen cantidades cada vez mayores de datos web, señalan que la cuidadosa conservación de la información y el control de calidad son esenciales para evitar daños acumulativos.



