"Existe un aumento sin precedentes en el uso de inteligencia artificial en la educación médica", afirman investigadores

¿Profesores de Medicina con IA? ¿Cuál es la mejor inteligencia artificial para estudiar Medicina? Investigadores dicen qué herramienta es mejor-


SE LEE EN 3 minutos
Entre los innumerables usos que el usuario medio puede dar a la inteligencia artificial, quizás uno de los más sugerentes consista en ‘convertirla’ en profesor. No es una idea descabellada: según un estudio publicado en la revista científica BMC Medical Education, ya existen herramientas de IA con potencial para realizar labores pedagógicas. Incluso en Medicina. Y, si bien ninguna alcanza todavía la precisión y el desempeño de un profesor, hay algunas que al menos se aproximan. La que más, Chat GPT.

"Existe un aumento sin precedentes en el uso de la IA generativa en la educación médica, lo que hace necesario evaluar la precisión de estos modelos para garantizar la seguridad del paciente”, defienden los autores de este análisis sobre la aptitud de los modelos de inteligencia artificial para ser ‘profesores’. Los resultados del estudio sugieren que Chat GPT alcanza un índice de precisión (entendiendo como tal la capacidad de esas herramientas para dar respuestas correctas en preguntas de opción múltiple) del 70 por ciento, 10 puntos por encima que Copilot y 20 más que Gemini, que sería la menos fiable.

Para evaluar la fiabilidad de estos resultados, los investigadores se sirvieron de la prueba estadística Fleiss’ Kappa, que mide la concordancia entre múltiples evaluadores. El valor obtenido fue de -0,056, lo que indica un alto nivel de desacuerdo entre estos LLMs (modelos extensos de lenguaje) y los profesores reales de Medicina. Posteriormente se aplicó Cohen’s Kappa para medir la concordancia entre pares, obteniendo los siguientes resultados:

  • Chat GPT: 0.84 (alta concordancia con el profesor).
  • Copilot: 0.69 (moderada).
  • Gemini: 0.53 (baja).
A pesar de que Chat GPT demostró ser el modelo más preciso, los investigadores advierten que estos sistemas no pueden reemplazar, al menos todavía, a un profesor de Medicina, dado que la variabilidad en sus respuestas y la falta de un criterio clínico fiable podrían poner en riesgo la formación de los futuros facultativos.


Los investigadores advierten que estos sistemas no pueden reemplazar, al menos todavía, a un profesor de Medicina



"El estudio proporciona un enfoque para evaluar la precisión de diferentes LLMs y concluye que Chat GPT es superior a otros en la resolución de preguntas médicas -añaden-. La baja precisión en general sugiere que deben usarse con precaución en entornos educativos”.

Por otro lado, apuntan que el análisis “se limita a 40 preguntas de opción múltiple que, si bien son diversas, podrían no representar exhaustivamente todas las especialidades médicas”.

"Rendimiento inconsistente" de la IA en Medicina


Concluyen los autores de este estudio que la integración de los LLM en la educación médica presenta desafíos éticos y prácticos.

“Desde el punto de vista ético, la dependencia del conocimiento médico generado por IA genera inquietudes sobre la precisión, la desinformación y la seguridad del paciente -apuntan-. El rendimiento inconsistente de los LLM sugiere que su uso debe complementarse con la validación de expertos para prevenir posibles daños”.

“En la práctica, si bien los LLM ofrecen herramientas de aprendizaje accesibles, deben perfeccionarse con datos específicos del dominio para mejorar la fiabilidad. Además, los educadores deben capacitar a los estudiantes para evaluar críticamente el contenido generado por IA, garantizando así una toma de decisiones informada en lugar de una dependencia ciega”.
Las informaciones publicadas en Redacción Médica contienen afirmaciones, datos y declaraciones procedentes de instituciones oficiales y profesionales sanitarios. No obstante, ante cualquier duda relacionada con su salud, consulte con su especialista sanitario correspondiente.