Somos una Fundación que ejercemos el periodismo en abierto, sin muros de pago. Pero no podemos hacerlo solos, como explicamos en este editorial.
¡Clica aquí y ayúdanos!
«ChatGPT podría estar deteriorando las habilidades de pensamiento crítico, según un nuevo estudio del MIT«. Con este titular tan clickbeitiano, la revista Time publicaba un artículo que ha estado circulando por las redes sociales, en el que se alerta de las devastadoras consecuencias que habrá si osamos usar los LLMs (modelos de lenguaje de gran tamaño o, para el común de los mortales, ChatGPT).
En este texto se resume en pocos párrafos un artículo científico que tiene 206 páginas y que lleva por nombre “Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task”. De forma resumida, este equipo del MIT liderado por la Dra. Nataliya Kosmyna, ha investigado si el uso de ChatGPT a la hora de escribir un texto argumentativo tiene un impacto
- en la carga y dedicación cognitiva, medido a través de encefalogramas que evalúan la actividad cerebral;
- en la forma en la que se usan las palabras en los textos, investigado a través del modelo del Procesamiento del Lenguaje Natural (PNL);
- en la capacidad de los sujetos investigados de citar partes del texto escrito, la corrección de estas citas y la sensación de autoría por parte de las personas investigadas;
- y en la calificación otorgada a cada texto, que es evaluada tanto por personas como por otra IA.
Para investigarlo, separaron a las personas en tres grupos: quienes debían escribir el texto usando únicamente ChatGPT; quienes podían usar Google para buscar información antes de escribir el texto, y quienes solo podían usar lo que ya sabían sobre el tema. Disponían de 20 minutos para realizar la tarea. Este proceso se repitió cuatro veces, cada vez con un tema distinto. En la última ronda, se invirtieron las condiciones: a quienes habían usado ChatGPT se les pidió que escribieran el texto sin ayuda, solo con lo que recordaban y a quienes habían trabajado sin IA, se les permitió utilizarla.
No voy a entrar a debatir los resultados ni el diseño de la investigación (podéis leer sobre esto aquí) porque yo no soy experta ni en PNL, ni en encefalogramas ni en LLMs. Lo que sí voy a debatir es el uso que se da de estas investigaciones tanto en la prensa como en las redes sociales. Porque cuando tú lees el titular de Time o cualquier publicación en redes sobre este artículo, enseguida te quedas con la impresión de que la ciencia ha demostrado que ChatGPT nos está volviendo tontos. Y eso ocurre, en parte, porque ese mensaje activa nuestras ideas previas sobre la inteligencia artificial y hace que lo demos por cierto sin profundizar demasiado. Es un ejemplo claro de cherry-picking: nos quedamos solo con la parte del estudio que confirma lo que ya pensábamos, y dejamos fuera el resto.
De hecho, uno de los ejemplos más evidentes de esto lo encontramos en las propias reacciones al estudio. Como comentaba en una red social un directivo de una EdTech:
“Este nuevo estudio sobre ChatGPT y el aprendizaje de los estudiantes se ha difundido muchísimo en redes, y con razón. Refuerza algo que llevamos tiempo sabiendo en educación: cuando la tecnología se introduce en el aula de forma equivocada, los resultados no solo son poco efectivos, sino que pueden ser perjudiciales. En realidad, los hallazgos del estudio no resultan tan sorprendentes”.
Una lectura así del estudio es, precisamente, lo que demuestra lo fácil que resulta confirmar nuestras propias creencias sin revisar con atención lo que realmente dice la evidencia.
Este tipo de prácticas se ven muy a menudo en redes sociales, y estoy segura de que yo misma lo habré hecho en más de una ocasión. En mi opinión, las vemos mucho porque, por una parte, estamos en una época de reacción desbocada contra la tecnología en las aulas (aquí, aquí y aquí) y todo lo que sea dar caña a la inteligencia artificial suma puntos.
Por otro lado, los artículos sobre educación, en general, tienden a presentar el aprendizaje como un acto puramente individual: si ocurre en mi cerebro, entonces nada más importa. Ni el contexto en el que se produce, ni la motivación que tengo (o no) para aprender, ni mis experiencias previas con esa tarea, ni mi estado emocional, ni con quién aprendo. Esta visión reduccionista del aprendizaje lleva a investigadores, periodistas y lectores a simplificar el debate educativo hasta convertirlo en una serie de falsas dicotomías: ¿tecnología sí o no?, ¿esfuerzo o no esfuerzo?, ¿competencias o no competencias? Y de esta forma, poco a poco, vamos dejando de lado la oportunidad de abrir un debate más rico, complejo y profundo sobre cómo el capital económico, social o cultural condiciona las posibilidades de aprender. Pero, como me dijo un buen amigo: “Ese debate no vende periódicos ni promueve el clickbait, querida Lara, porque hace pensar a la gente”.
En este sentido, el artículo científico y su reseña en Time son dos ejemplos perfectos de lo que está ocurriendo en la divulgación educativa. Vamos a destripar las fuentes, porque lo que está pasando merece ser leído con calma y mirada crítica.
Para empezar: ¡El artículo ni siquiera está publicado aún! Es decir, no ha pasado por ninguna revisión por pares, que —con todos sus defectos— sigue siendo el mínimo exigible en cualquier disciplina científica para que un resultado se considere válido. Que sí, que ya sabemos que, como científicas, tenemos muchas dudas (y críticas legítimas) sobre el actual sistema de revisión por pares y las lógicas de publicación en revistas. Pero si vas a hacer un artículo periodístico sobre esta investigación, el hecho de que aún no esté publicada debería aparecer en el primer párrafo, no a la mitad del tercero, cuando ya has sembrado el pánico sobre los daños cerebrales que supuestamente nos causará la inteligancia artificial.
The paper suggests that the usage of LLMs could actually harm learning, especially for younger users. The paper has not yet been peer reviewed, and its sample size is relatively small. But its paper’s main author Nataliya Kosmyna felt it was important to release the findings to elevate concerns that as society increasingly relies upon LLMs for immediate convenience, long-term brain development may be sacrificed in the process.
El estudio plantea que el uso de modelos de lenguaje como ChatGPT podría perjudicar el aprendizaje, sobre todo en personas jóvenes. Aún no ha pasado una revisión por pares y la muestra es bastante pequeña. Aun así, su autora principal, Nataliya Kosmyna, decidió hacerlo público porque le preocupa que, si seguimos confiando en este tipo de herramientas por pura comodidad, acabemos comprometiendo el desarrollo del cerebro a largo plazo.
El estudio se basa en una muestra reducida: 54 personas de entre 18 y 35 años, estudiantes de grado, doctorado y postdoc de cinco universidades del área de Boston. Incluso siendo prudentes, podríamos suponer que estas personas cuentan, como mínimo, con un elevado capital cultural, y probablemente también con un considerable capital social y económico. ¿Qué pasaría si esta misma investigación se realizara con personas con otros perfiles culturales, sociales o económicos? ¿Se obtendrían los mismos resultados?
Además, en la investigación no se menciona si estas personas son neurotípicas, neurodivergentes o si presentan alguna discapacidad. ¿Acaso no es relevante investigar qué efecto tiene ChatGPT en distintos tipos de cerebros, en distintas formas de aprender y de relacionarse con el lenguaje? Ojo: esto no es necesariamente un fallo de la investigación. Pero como personas que trabajamos en educación y divulgamos, sí debería llamar nuestra atención sobre el sesgo que presenta la muestra y la necesidad de tenerlo en cuenta antes de extrapolar alegremente sus resultados.
Y aquí es donde viene lo más sorprendente. Según la autora, Nataliya Kosmyna, lo que la llevó a compartir su estudio con la prensa (antes de estar validado por la comunidad científica, recuerdo) fue su preocupación por el uso de LLMs con niños de infantil:
“What really motivated me to put it out now before waiting for a full peer review is that I am afraid in 6-8 months, there will be some policymaker who decides, ‘let’s do GPT kindergarten.’ I think that would be absolutely bad and detrimental,” she says. “Developing brains are at the highest risk.”
“Lo que realmente me llevó a publicarlo antes de pasar la revisión por pares fue el miedo a que, en 6 u 8 meses, algún responsable político decida: ‘venga, montemos una guardería-GPT’. Creo que eso sería totalmente negativo y perjudicial”, afirma. “Los cerebros en desarrollo son los que corren mayor riesgo”.
Me deja perpleja esta declaración. Primero, porque justifica hacer público un estudio aún no validado por la comunidad científica en nombre de un supuesto bien común. Y segundo, porque asume con total naturalidad que los resultados obtenidos con una muestra de adultos universitarios pueden extrapolarse al ámbito educativo de niños de 0 a 6 años. What a time to be alive!
Y hay algo que no deberíamos pasar por alto: no se puede extrapolar una investigación hecha con 56 personas adultas, en un laboratorio cerrado en el que se les ha entregado una tarea que hacer en 20 minutos, sin feedback, sin interacción, sin ningún tipo de contexto social ni educativo… al funcionamiento real de un aula. El aprendizaje en una escuela, o en cualquier otro lugar, no ocurre en condiciones de laboratorio. Está atravesado por relaciones, emociones, apoyos, sentido y objetivos pedagógicos claros. Tomar una tarea tan descontextualizada como esta y convertirla en una prueba de lo que pasa cuando niñas y niños aprenden con IA es una simplificación que no refleja ni la realidad educativa ni cómo otras ciencias del aprendizaje entienden qué significa aprender.
Todo esto no significa que no debamos investigar los efectos de la inteligencia artificial en los procesos de aprendizaje. Al contrario: necesitamos más investigación, más matizada, con muestras diversas, con diseños que se acerquen a la complejidad de lo que pasa en las aulas y que se enmarque en las diferentes formas de entender el aprendizaje. Pero lo que no necesitamos es más sensacionalismo educativo. No necesitamos titulares alarmistas que convierten cualquier hallazgo parcial en una verdad absoluta. No necesitamos estudios descontextualizados usados para alimentar debates simplistas. Y desde luego, no necesitamos que el miedo se convierta en el principal motor de nuestras decisiones pedagógicas.
Porque si algo hemos aprendido de décadas de reformas educativas, es que las soluciones mágicas y los enemigos únicos —se llamen pantallas, contenidos, competencias o IA— no existen. Lo que sí existe es la responsabilidad de pensar la educación con calma, con preguntas incómodas y con una mirada crítica que no se deje arrastrar por el último trending topic.