La
inteligencia artificial (IA) parece detectar enfermedades a partir de
imágenes médicas con niveles de precisión similares a los de los profesionales sanitarios, según la primera revisión sistemática y el primer meta-análisis que sintetiza toda la evidencia disponible de la literatura científica, que se ha publicado en la revista
The Lancet Digital Health.
Sin embargo, el informe puntualiza que solo "unos pocos estudios" fueron de calidad suficiente para ser incluidos en el análisis, y los autores advierten de que el verdadero poder diagnóstico de la técnica de
IA conocida como
deep learning (el uso de algoritmos,
big data y computación para emular el aprendizaje humano y la inteligencia) sigue siendo "incierto" debido a la
falta de estudios que comparen directamente el rendimiento de los seres humanos y las máquinas, o que validen el rendimiento del IA en entornos clínicos reales.
Estudios poco sólidos y sesgados
"Revisamos más de 20.500 artículos, pero menos del 1 por ciento de ellos eran lo suficientemente sólidos en su diseño e información como para que los revisores independientes tuvieran una gran confianza en sus afirmaciones. Además,
solo 25 estudios validaron los modelos de IA externamente (usando imágenes médicas de una población diferente), y apenas 14 estudios compararon en realidad el rendimiento de la IA y de los profesionales de la salud usando la misma muestra de prueba", explica el profesor Alastair Denniston, de University Hospitals Birmingham NHS Foundation Trust (Reino Unido), quien dirigió la investigación.
Dentro de esos pocos de estudios de alta calidad, encontraron que el
deep learning podría, de hecho, detectar enfermedades que van desde cánceres hasta enfermedades oculares con la misma precisión que los profesionales. "Pero es importante resaltar que la IA no superó sustancialmente el diagnóstico humano", incide Denniston.
Deep learning
La FDA ya ha aprobado más de 30 algoritmos de IA para la atención sanitaria
|
Con el
deep learning, las computadoras pueden examinar miles de imágenes médicas para
identificar patrones de enfermedad. Esto ofrece un enorme potencial para mejorar la precisión y la velocidad del diagnóstico. Los informes de modelos de
deep learning que superan a los humanos en las pruebas de diagnóstico
han generado mucho entusiasmo y debate, y más de 30 algoritmos de IA para la atención sanitaria ya han sido aprobados por la Administración de Alimentos y Medicamentos de Estados Unidos (FDA, por sus siglas en inglés).
A pesar del gran interés público y de los grandes grupos empresariales que impulsan el rápido desarrollo de estas tecnologías, se ha planteado la preocupación de si los diseños de los estudios están sesgados a favor del aprendizaje automático, y el grado en que los hallazgos son aplicables a la práctica clínica en el mundo real.
Precisión diagnóstica
Para proporcionar más evidencia, estos investigadores condujeron una revisión sistemática y meta-análisis de todos los estudios comparando el desempeño de los modelos de
deep learning y los profesionales de la salud en la detección de enfermedades a partir de imágenes médicas publicadas entre enero de 2012 y junio de 2019. También evaluaron el diseño del estudio, los informes y el valor clínico.
En total, se incluyeron 82 artículos en la revisión sistemática. Se analizaron los datos de
69 artículos que contenían datos suficientes para calcular con precisión el rendimiento de la prueba. En el meta-análisis se incluyeron las estimaciones agrupadas de 25 artículos que validaron los resultados en un subconjunto independiente de imágenes.
Con frecuencia, el deep learning se evaluó de forma aislada de manera que no reflejara la práctica clínica
|
El análisis de los datos de 14 estudios que compararon el rendimiento del
deep learning con humanos en la misma muestra encontró que,
en el mejor de los casos, los algoritmos pueden detectar correctamente la enfermedad en el 87 por ciento de los casos, en comparación con el 86 por ciento logrado por los profesionales de la salud.
La capacidad de excluir con precisión a los pacientes que no tienen enfermedad también fue similar para los algoritmos de
deep learning (93 por ciento de especificidad), en comparación con los profesionales de la salud (91 por ciento).
Limitaciones en los estudios sobre inteligencia artificial
Los autores precisan que existen varias limitaciones en la metodología y el informe de los estudios de diagnóstico de la IA incluidos en el análisis. Con frecuencia, el
deep learning se evaluó de forma aislada de manera que no reflejara la práctica clínica. Por ejemplo,
solo cuatro estudios proporcionaron a los profesionales de la salud información clínica adicional que normalmente utilizarían para hacer un diagnóstico en la práctica clínica.
Además, se realizaron pocos estudios prospectivos en entornos clínicos reales, y los autores dicen que para determinar la precisión diagnóstica se requieren comparaciones de alta calidad en pacientes, no solo conjuntos de datos. Los informes deficientes también fueron frecuentes, y la mayoría de los estudios no informaron de los datos faltantes, lo que limita las conclusiones que pueden extraerse.
Las informaciones publicadas en Redacción Médica contienen afirmaciones, datos y declaraciones procedentes de instituciones oficiales y profesionales sanitarios. No obstante, ante cualquier duda relacionada con su salud, consulte con su especialista sanitario correspondiente.