Cómo la IA revolucionará el diagnóstico médico y la atención a los pacientes

AGENCIAS / EL TIEMPO

⌛️ domingo 16 de julio de 2023

Dado que la inteligencia artificial (IA) médica es mi principal enfoque de investigación, trato de mantenerme al día con las últimas publicaciones e informes. Pero eso ha resultado cada vez más difícil en las últimas semanas, ya que estamos viendo una aceleración de la producción.

Voy a resumir aquí nuevos estudios de imágenes cardiopulmonares de aprendizaje profundo, un modelo transformador, también conocido como IA generativa o modelo de lenguaje grande (LLM) y algunos avances en escribas virtuales.

1. “Su radiografía de tórax indica que puede tener diabetes”

Ayis Pyrros [NdeR de la Universidad de Illinois, Chicago] y sus colegas publicaron un artículo importante para el entrenamiento de redes neuronales profundas de radiografías de tórax (CXR) para detectar diabetes tipo 2 (DT2), algo que no hubiéramos anticipado. Se usaron más de 270.000 CXR de más de 160.000 pacientes para desarrollar el modelo, y luego se evaluó prospectivamente en casi 10.000 pacientes.

El modelo se desempeñó bien independientemente de la raza o el origen étnico, que es un tema crítico que siempre debe tenerse en cuenta. Si bien la precisión general (reflejada por AUC 0,84) no fue muy alta (como 0,95 o más), es importante tener en cuenta que las CXR son las imágenes médicas más comunes obtenidas en el mundo. Si su uso puede extenderse a una capacidad imprevista para ayudar a detectar DT2, eso sería bienvenido.

Este es un ejemplo más de “ojos” de máquina entrenados con grandes entradas de datos para detectar cosas que los ojos humanos no pueden. ¿Cómo detectó el modelo el posible diagnóstico de diabetes tipo 2? Para crédito de los investigadores, la búsqueda de la explicabilidad condujo a encontrar algunas de las características que explicaban la detección de la IA, como la adiposidad central y la atenuación de las costillas y las clavículas. Aun así, la precisión del modelo fue algo mejor en personas con IMC (índice de masa muscular) menor a 25 (AUC 0,89) en comparación con aquellas con IMC mayor a 25 (AUC 0,84). Los autores llamaron a esto “detección oportunista de diabetes tipo 2″, lo cual es apropiado, ya que con frecuencia se pasa por alto el diagnóstico de diabetes.

2. “Su radiografía de tórax indica que su fracción de eyección puede ser baja y la presencia de una enfermedad de las válvulas”

Desde que tengo memoria, no hemos considerado la radiografía de tórax como una forma útil de estimar la función cardíaca de un paciente, reflejada por la fracción de eyección (menor o mayor del 40%). [NdeR: La fracción de eyección es la cantidad de sangre, expresada en un porcentaje, que se bombea de un ventrículo lleno con cada latido del corazón]. Esta noción fue desafiada por (Daiju) Ueda [NdeR de la Universidad de Osaka], y sus colegas en un nuevo artículo utilizando más de 22.000 CXR y ecocardiogramas emparejados de múltiples instituciones para entrenar un modelo, con validación externa (con un AUC de 0,87 para todos los hallazgos sobre fracción de eyección, enfermedad de las válvulas e insuficiencia cardíaca).

Al igual que el estudio diabetes a partir de CXR, no hubiera anticipado que esto fuera posible y considero el trabajo particularmente creativo e innovador. Es decir, dado que las CXR nuevamente son la imagen médica más común obtenida en el mundo, a un costo considerablemente menor que un ecocardiograma, el valor práctico de estos hallazgos es notable.

Para su crédito, estos investigadores también buscaron la explicabilidad con mapas de prominencia, como se muestra a continuación. Para la fracción de eyección y cada uno de los otros hallazgos de válvula/IVC (el resto se muestra en el material complementario), la forma de las sombras del corazón y las características del contorno proporcionaron parte de la explicación de cómo la CXR podría imputar los resultados del eco.

3. “Su electrocardiograma muestra que estás teniendo un ataque al corazón”

Si bien el ECG (electrocardiograma) es fundamental para diagnosticar un ataque cardíaco, muchos pacientes que acuden a un departamento de emergencia no tienen hallazgos de diagnóstico. Alrededor del 30% de los pacientes que se presentan, en realidad, tienen una arteria coronaria aguda ocluida (100% bloqueada) sin la característica elevación del segmento ST del ECG. De manera similar, la prueba inicial de troponina en sangre para evidencia de lesión miocárdica es negativa en aproximadamente 1 de cada 4 pacientes a los que posteriormente se les diagnostica un infarto de miocardio agudo.

Un nuevo estudio realizado por (Salah) Al-Zaiti [NdeR de la Universidad de Pittsburgh] y colegas abordó este problema, con el flujo de trabajo para el desarrollo de modelos de una puntuación de riesgo como se muestra a continuación, con evaluación prospectiva y validación externa en sistemas de salud independientes.

Es de destacar que 1 de cada 3 pacientes fue reclasificado correctamente por la puntuación de riesgo derivada de la IA “SMART”. Al igual que los otros 2 estudios anteriores, hubo esfuerzos deliberados por la explicabilidad, con el desentrañamiento de las 25 características más importantes que impulsaron la precisión del modelo, que superó tanto a los expertos clínicos como a los sistemas comerciales de interpretación de ECG.

Una afirmación adecuada en el texto: “Este es el primer estudio que utiliza métodos de aprendizaje automático y características novedosas de ECG para optimizar la detección de OMI [ataque cardíaco oclusivo, MI] en pacientes con dolor torácico agudo y STEMI [IM con elevación del ST] patrón negativo en su presentación electrocardiograma”.

Una mayor replicación de este informe y su implementación podrían ser un paso fundamental hacia un diagnóstico más preciso y un tratamiento oportuno de los pacientes con infarto.

4. Los modelos de lenguaje grande están respondiendo preguntas médicas cada vez más correctamente

En un nuevo informe de los investigadores de IA de Google, Karan Singhal y sus colegas, se evaluó la progresión de sus grandes modelos de lenguaje desde el Flan-PaLM hasta el Med-PaLM. Más allá de la capacidad de Med-PaLM para superar el umbral de aprobación para el Examen de licencia médica de EE. UU. (USMLE) como revisé anteriormente, se puede ver los incrementos sustanciales para la comprensión correcta, la recuperación correcta y la evidencia del razonamiento correcto de Flan-PaLM a Med-PaLM para 140 preguntas médicas evaluadas.

En general, un panel de médicos consideró que el 61,9 % de las respuestas largas de Flan-PaLM estaban alineadas con el consenso científico, en comparación con el 92,6 % de las respuestas de Med-PaLM; estos se acercaban a la paridad con las respuestas generadas por el médico (92,9%). Pero por incorrección, el panel b muestra la inferioridad de los modelos de IA para los médicos. Si bien no hubo evidencia de un mayor sesgo para los LLM, se desempeñaron peor por contenido inapropiado/incorrecto y probabilidad de posible daño.

Los autores reconocieron las limitaciones de la inferioridad de los médicos y concluyeron: “Nuestras evaluaciones en humanos revelan las limitaciones de los modelos actuales, lo que refuerza la importancia tanto de los marcos de evaluación como del desarrollo de métodos para crear LLM seguros y útiles para aplicaciones clínicas”. Lo que es digno de mención es que su modelo Med-PaLM2 superó con creces el rendimiento de lo que se publicó en el nuevo artículo de Nature sobre Med-PaLM, como es evidente en su preimpresión de Med-PALM2 de mayo de 2023 utilizando el salto de precisión de USMLE.

Esto sugiere que la velocidad de ajuste fino de los LLM supera con creces la de las publicaciones de revisión por pares (¡bueno, eso no es decir demasiado!) Y claramente vamos a ver mejoras considerables de estos LLM en los tiempos venideros. Hay una pugna intensa entre Google y Microsoft, junto con otros titanes de la tecnología y empresas “startup” con impresionantes LLM. Un artículo del WSJ de esta semana destacó el énfasis de Google en las aplicaciones de salud.

5. La inteligencia artificial eclipsa en el cuidado de la salud al papeleo

Un artículo de primera plana en el New York Times destacó el proceso de usar conversaciones durante las visitas a la clínica para producir notas, planes de tratamiento y facturación, lo que podría ahorrar mucho tiempo a los médicos.

Como Steve Lohr, el periodista, lo expresó muy bien: “El mejor uso de la IA generativa en el cuidado de la salud, dicen los médicos, es aliviar la pesada carga de documentación que les lleva horas al día y contribuye al agotamiento”. Lo que es particularmente bueno es que la nota sintética escrita puede cotejarse rápidamente con las palabras pronunciadas, lo que fomenta la verificabilidad y la confianza tanto para el médico como para el paciente.

Únete al canal de difusión de WhatsApp de El Tiempo MX y recibe las noticias más importantes de Monclova, Coahuila y México directamente en tu celular. ¡Haz clic y súmate ahora!