Un estudio demuestra que la aplicación responde mejor cuestiones en texto que aquellas basadas en imágenes

ChatGPT no aprueba en la interpretación de imágenes radiológicas
El programa consiguió un 47 por ciento de acierto en las preguntas basadas en imágenes.


3 sept. 2024 17:40H
SE LEE EN 3 minutos
ChatGPT se ha convertido en una de las principales herramientas de casi cualquier ámbito profesional, entre los que hay que citar el sanitario. Sin embargo, este modelo de lenguaje con casi respuestas infinitas a cualquier cuestión no siempre acierta. Al menos, en el caso de las preguntas relacionadas con imágenes radiológicas, según ha revelado un estudio de la Sociedad Radiológica de Norteamérica.

Para llegar a esta conclusión, un equipo de investigadores de la mencionada organización ha evaluado el rendimiento de ChatGPT-4 Vision, la primera versión de este modelo de lenguajes que puede interpretar tanto texto como imágenes. Así, los científicos han sometido a este programa a un examen de Radiología Diagnóstica, compuesto por las preguntas que utiliza el Colegio Americano de Radiología para comprobar el avance formativo de los residentes de la especialidad durante la etapa formativa. Los resultados fueron distintos según el formato de la consulta.

ChatGPT-4 Vision respondió correctamente 159 de las 195 consultas de solo texto, lo que se traduce en el 81,5 por ciento de acierto. No obstante, el porcentaje cae en las preguntas con imágenes. Y es que este modelo de lenguaje contestó bien 87 de las 182 cuestiones, con lo que consiguió un 47,8 por ciento de tino. En el conjunto de la prueba, la aplicación sacó un 65,3 por ciento -246 sobre 377-.


Mejor en Tórax que en Medicina Nuclear


Por subespecialidad, la nueva versión de ChatGPT tan solo tuvo mejor desempeño en las preguntas con imágenes que en las preguntas con solo texto en Tórax y Genitourinarias, con un porcentaje de acierto del 69 y 67, respectivamente. En el resto, fue más precisa en el segundo tipo de cuestiones, sobre todo en Medicina Nuclear, dominio en el que tan solo respondió bien dos de diez consultas. 

Además, el estudio también evaluó el impacto de varias indicaciones en el desempeño de GPT-4 Vision. En las preguntas basadas en texto, la instrucción basada en cadenas de pensamiento tuvo un mejor desempeño que la instrucción larga en un 6,1 por ciento, la instrucción básica en un 6,8 por ciento y el estilo de instrucción original en un 8,9 por ciento. Eso sí, no hubo evidencia que sugiriera diferencias de tino entre dos indicaciones en las preguntas basadas en imágenes.


Apuesta por ChatGPT en Radiología


Los resultados del estudio, publicados en la revista Radiology, han subrayado la importancia de generar métodos de evaluación más especializados y rigurosos para el análisis de imágenes radiológicas. "Notamos una tendencia alarmante en el modelo a proporcionar diagnósticos correctos basados en interpretaciones incorrectas de las imágenes, lo que podría tener implicaciones clínicas importantes", ha afirmado el radiólogo musculoesquelético e investigador de Inteligencia Artificial en Henry Ford Health (Detroit, Estados Unidos), Chad Klochko.

Pese a reconocer las limitaciones de la aplicación en el análisis de imágenes y por ende no recomendar su uso para esta clase de tareas, el experto ha reconocido que ChatGPT-4 Vision es una herramienta "prometedora" en el campo de la Radiología. Por ejemplo, ha detallado que puede ayudar a los profesionales con la simplificación de informes o la identificación del protocolo adecuado para los exámenes de diagnóstico con materiales visuales.
Las informaciones publicadas en Redacción Médica contienen afirmaciones, datos y declaraciones procedentes de instituciones oficiales y profesionales sanitarios. No obstante, ante cualquier duda relacionada con su salud, consulte con su especialista sanitario correspondiente.