Facultad de Odontología de la Universidad Nacional de Singapur.
¿Cómo de efectivo sería aplicar la
inteligencia artificial en la corrección de pruebas universitarias para grados sanitarios? Esta pregunta es la que se plantearon desde la
facultad de Odontología de la Universidad Nacional de Singapur. Como recoge un estudio publicado en la revista científica
BMC Medical Education, la institución académica ha desarrollado una investigación para comparar la calificación automatizada en los
exámenes de Cirugía Oral y Maxilofacial para estudiantes de Odontología con las evaluaciones humanas.
La
inteligencia artificial ha revolucionado el sector de la salud y ha proporcionado una amplia gama de mejoras. En la educación médica, la realidad virtual emerge como una herramienta útil para
mejorar la competencia y confianza de los estudiantes en la evaluación de pacientes y la ejecución de procedimientos. Como indica el informe, la
incorporación de ChatGPT en el currículo de Odontología sería el "siguiente paso" para mejorar el aprendizaje de estos estudiantes.
"El rendimiento de ChatGPT en el
Examen de Licencia Médica de los Estados Unidos (USMLE) fue validado recientemente con ChatGPT obteniendo una puntuación equivalente a la de un estudiante de Medicina de tercer año. Sin embargo,
no existen datos sobre el rendimiento de ChatGPT en el campo de la Odontología. Este estudio concluye con la presencia de "correlaciones significativas" y "un excelente acuerdo entre las evaluaciones manuales y ChatGPT". Las puntuaciones medias entre ambos grupos mostraron correlaciones "de moderadas a fuertes" para ambas. Esto sugiere que la evaluación automatizada con IA tiene el potencial de
proporcionar un nivel de evaluación de ensayos "similar al de los educadores en la facultad".
"Sin embargo, aún
es necesario afinar el sistema de calificación para que la puntuación proporcionada por la calificación automatizada se desvíe lo menos posible de la calificación humana. Por ejemplo, la puntuación media del primer método fue hasta cinco puntos más baja que la calificación manual para la segunda pregunta de la prueba. Aunque la diferencia puede no parecer grande, potencialmente
puede aumentar o disminuir la calificación final de los estudiantes", concreta el estudio.
Desarrollo del estudio
El estudio examinó a 69 participantes, todos ellos
estudiantes de Odontología de último año. Realizaron un examen de Cirugía Oral y Maxilofacial en la plataforma 'Examplify' como parte de la evaluación final.
El examen constaba de dos preguntas abiertas basadas en los temas enseñados en el mismo.
Como conlusión, se encontraron
correlaciones positivas entre ChatGPT y la calificación manual. Sin embargo, ChatGPT tendía a ser más estricto y no era capaz de penalizar contenido irrelevante o incorrecto. Por ello, el informe consifera que, en su estado actual,
GPT-4 "no debería utilizarse como una herramienta autónoma" para la enseñanza o evaluación en el ámbito de la educación médica o dental, pero puede servir como un complemento "para ayudar a los estudiantes en la autoevaluación".
Desventajas de ChatGPT en Odontología
No obstante, se identificaron algunos
inconvenientes en el uso de ChatGPT. En primer lugar, la capacidad de obtener puntuaciones fiables depende en gran medida de la creación de una rúbrica de evaluación "bien diseñada", con términos "claramente definidos". En este estudio, las correlaciones entre los evaluadores fueron más fuertes para la pregunta 1 en comparación con la pregunta 2. "La menor fiabilidad de la calificación automatizada para la pregunta 2 puede atribuirse a su naturaleza más amplia, el uso de términos médicos más complejos y rúbricas de evaluación más extensas, que dejó más margen para la interpretación individual y la variación entre humanos e IA.
La capacidad de ChatGPT para proporcionar respuestas precisas puede reducirse con indicaciones más largas y conversaciones más complejas", concretan.
Un 'prompt' demasiado ambiguo o que carezca de contexto
puede generar una respuesta incompleta, genérica o irrelevante. Además,
los estudiantes podrían "engañar" a la IA produciendo un ensayo más largo que toque más puntos relevantes, lo que podría aumentar su puntuación, incluso si se incluyen declaraciones incorrectas o sin sentido: "Este problema podría resolverse a medida que
ChatGPT adquiera más conocimientos médicos y dentales".
Otra conclusión relevante a la que llegó la investigación es que
la falta de "emoción humana" en la calificación automatizada puede ser tanto una ventaja como una desventaja: "Si bien ChatGPT puede proporcionar retroalimentación objetiva y sin sesgos, carece de la empatía y la inteligencia emocional que un educador humano puede ofrecer", aseguran.
Las informaciones publicadas en Redacción Médica contienen afirmaciones, datos y declaraciones procedentes de instituciones oficiales y profesionales sanitarios. No obstante, ante cualquier duda relacionada con su salud, consulte con su especialista sanitario correspondiente.