Entre los innumerables usos que el usuario medio puede dar a la
inteligencia artificial, quizás uno de los más sugerentes consista en ‘convertirla’ en
profesor. No es una idea descabellada: según un estudio publicado en la revista científica
BMC Medical Education, ya existen herramientas de IA con potencial para realizar labores pedagógicas. Incluso en Medicina. Y, si bien ninguna alcanza todavía la precisión y el desempeño de un profesor, hay algunas que al menos se aproximan. La que más,
Chat GPT.
"Existe un aumento sin precedentes en el uso de la IA generativa en la educación médica, lo que hace necesario evaluar la precisión de estos modelos para garantizar la seguridad del paciente”, defienden los autores de este
análisis sobre la aptitud de los modelos de inteligencia artificial para ser ‘profesores’. Los resultados del estudio sugieren que Chat GPT alcanza un índice de precisión (entendiendo como tal la capacidad de esas herramientas para dar respuestas correctas en preguntas de opción múltiple) del
70 por ciento, 10 puntos por encima que
Copilot y 20 más que
Gemini, que sería la menos fiable.
Para evaluar la fiabilidad de estos resultados, los investigadores se sirvieron de la prueba estadística
Fleiss’ Kappa, que mide la concordancia entre múltiples evaluadores. El valor obtenido fue de -0,056, lo que indica un
alto nivel de desacuerdo entre estos LLMs (modelos extensos de lenguaje) y los profesores reales de Medicina. Posteriormente se aplicó
Cohen’s Kappa para medir la concordancia entre pares, obteniendo los siguientes resultados:
-
Chat GPT: 0.84 (alta concordancia con el profesor).
-
Copilot: 0.69 (moderada).
-
Gemini: 0.53 (baja).
A pesar de que Chat GPT demostró ser el modelo más preciso, los investigadores advierten que estos sistemas no pueden reemplazar, al menos todavía, a un profesor de Medicina, dado que la
variabilidad en sus respuestas y la
falta de un criterio clínico fiable podrían poner en riesgo la formación de los futuros facultativos.
Los investigadores advierten que estos sistemas no pueden reemplazar, al menos todavía, a un profesor de Medicina
|
"El estudio proporciona un enfoque para evaluar la precisión de diferentes LLMs y concluye que Chat GPT es superior a otros en la
resolución de preguntas médicas -añaden-. La baja precisión en general sugiere que deben usarse con precaución en entornos educativos”.
Por otro lado, apuntan que el análisis “se limita a 40 preguntas de opción múltiple que, si bien son diversas, podrían
no representar exhaustivamente todas las especialidades médicas”.
"Rendimiento inconsistente" de la IA en Medicina
Concluyen los autores de este estudio que la integración de los LLM en la educación médica presenta desafíos éticos y prácticos.
“Desde el punto de vista ético, la dependencia del conocimiento médico generado por IA genera
inquietudes sobre la precisión, la desinformación y la seguridad del paciente -apuntan-. El rendimiento inconsistente de los LLM sugiere que su uso debe complementarse con la validación de expertos para prevenir posibles daños”.
“En la práctica, si bien los LLM ofrecen herramientas de aprendizaje accesibles, deben perfeccionarse con datos específicos del dominio para mejorar la fiabilidad. Además, los educadores deben capacitar a los estudiantes para evaluar críticamente el contenido generado por IA, garantizando así una toma de decisiones informada
en lugar de una dependencia ciega”.
Las informaciones publicadas en Redacción Médica contienen afirmaciones, datos y declaraciones procedentes de instituciones oficiales y profesionales sanitarios. No obstante, ante cualquier duda relacionada con su salud, consulte con su especialista sanitario correspondiente.