La asignación de másteres, la evaluación de las oposiciones a juez, la concesión de la libertad a los presos, la puntuación cualitativa de las capacidades y otros baremos cuantificables sometidos a la mente humana son aspectos que escapan a la objetividad. El cansancio de un evaluador al superar un determinado número de exámenes puede ser determinante para la nota final de las últimas pruebas corregidas, por lo que el orden en el que un profesor empieza a corregir, poco o mucho, importa.
Miembros de un tribunal que, más consciente o inconscientemente, prevén que aprobarán a unos siete candidatos y suspenderán a tres es otro ejemplo de cómo las valoraciones no se ciñen nunca al 100% al mérito de la persona que pasa la prueba. Los mecanismos de cómo la fatiga y los prejuicios afectan a las valoraciones ya se han estudiado. Sin embargo, un equipo de investigadores de Cataluña, Suiza y Estados Unidos se propuso profundizar aún más en las valoraciones secuenciadas, en busca de otros fenómenos subyacentes que pudieran influir en la nota final. Y han encontrado uno nuevo que desplaza a los anteriores en importancia.
Lo han bautizado como ‘erosión de generosidad’ y han llegado a él con la siguiente explicación: puntuar con un 5 responde a un acto bondadoso, de generosidad. Y, una vez el examinador ejerce este acto de generosidad, se siente más legitimado para suspender el examen posterior. «La generosidad se define como dar a un candidato la nota más baja posible para avanzar en el proceso de contratación», puntualizan los investigadores. En su estudio proponen algunas explicaciones para esta erosión de la generosidad. «Una puede ser la aversión a la culpa: los evaluadores tienden a ser generosos y aprueban candidaturas dudosas para evitar el sentimiento de culpa. Ahora bien, una vez se aprueban varias candidaturas con un 5, disminuye este sentimiento de culpa y cada vez juzgarían con más dureza», razonan.
Para llegar a su conclusión -y hallazgo pionero-, se analizaron más de 10.000 evaluaciones realizadas a candidatos a ocupar un puesto fijo de profesor en la educación primaria y secundaria en Cataluña. El objetivo inicial era estudiar cómo afecta en la decisión de los comités evaluadores el hecho de que un candidato ocupe una posición determinada en la lista de personas examinadas. En el estudio de la distribución de notas se constata, por norma general, que acostumbra a haber pocos 10 y pocos 0, y es entre el 6 y el 4 donde se encuentra la clave de su hipótesis. Que aparezca un 5 redondo, en evaluaciones en las que los decimales tienen su papel, ya lleva a los investigadores a identificar este redondeo con la generosidad del profesor que evalúa, miembro del tribunal. En el artículo, los investigadores exponen su hipótesis de la siguiente manera: «En los procesos de contracción, los candidatos a menudo son juzgados uno detrás de otro. Este procedimiento secuencial afecta al resultado del proceso. Aquí introducimos el efecto generosidad-erosión, que afirma que los examinadores pueden ser más duros en su evaluación de los candidatos después de clasificar generosamente a los candidatos anteriores».
Según este estudio, en una evaluación secuencial, a las 9 h es más probable que aprueben, pero a las 14 h es más posible que hayan realizado ya algún acto de generosidad. Es decir, que el aprobar a gente por los pelos lleva a evaluar de manera más estricta a los siguientes.
Una vez establecido este parámetro, la investigación muestra que las probabilidades de aprobar de un candidato disminuyen un 7,7 % por cada persona examinada antes ese mismo día que haya obtenido una puntuación de 5,00.
Nueva contribución
El efecto de contraste también se conoce como un sesgo de evaluación. Es decir, una muy buena puntuación antes de la corrección de mi examen es probable que no levante tanto mi nota. «Nuestra contribución es que identificamos un nuevo mecanismo, un nuevo efecto sobre una evaluación cuantitativa, y no solo que el orden afecta, que ya se sabe, sino una nueva razón de por qué afecta. Y hemos visto que la erosión de la generosidad acaba siendo más importante que el orden y el cansancio, el contraste o la expectativa del jurado», explica el investigador de la Facultad de Economía y Empresa de la UB, Jordi Teixidó, participante en la investigación y coautor del artículo que se deriva, que ha sido publicado en la revista Science Advances.
Y, ante la evidencia descrita en este estudio, ¿Cómo pueden modificarse las correcciones si se quieren eliminar las distorsiones de este tipo? Teixidó apunta que «o bien puede pasar que todo siga igual, o que se intente remediar». Algunas ideas posibles para hacerlo serían, por ejemplo, no corregir los exámenes enteros, sino por ejercicios, agrupar las notas de todas las primeras preguntas juntas, todas las segundas… El sesgo puede ser igual, pero no tanto porque se reparte entre más. Otra posibilidad sería no tomar la nota de los cinco evaluadores, suponiendo que sea este número el que conforme el tribunal, sino coger tres al azar, de manera aleatoria. Y otra opción sería que los examinados pasaran por otro tribunal para obtener otra opinión, pero en este caso, tal vez fuera impensable por el coste y no se podría evitar otro sesgo.
Como este sesgo hallado nace de la repetición, de tener una secuencia, “si valoras a cinco en lugar de a 10, reduciendo la frecuencia, reduces sesgo, aunque necesitas a más gente para evaluar”. En cualquier caso, como dice el profesor e investigador Jordi Teixidó, «al margen de las maneras de evitarlo, el primer paso para corregir el problema es saber que existe».
Además de Teixidó, en el estudio han participado la investigadora de la UB, Tania Fernández, así como Marc-Lluís Vives (Universidad de Brown) y Miquel Serra-Burriel (Universidad de Zurich). En total, tres economistas y un psicólogo social que en su investigación han utilizado herramientas de las teorías de juego, propias de las ciencias sociales, para interpretar los resultados de su análisis. El proceso de selección de los miembros tenía características adecuadas para el estudio, ya que el orden de las personas que se examinan es aleatorio y la decisión se toma, no de forma individual, sino entre los miembros de un comité, como es cada vez más común en los procesos de selección.