Perspectivas

Monitoreo de IA: de las métricas del modelo a los resultados del paciente

March 04, 2026

By Lucas Zier, Amy Weckman y Natalie Martínez

Summary

A medida que la IA se generaliza, los sistemas de salud se enfrentan a una pregunta práctica que las estructuras de gobernanza por sí solas no pueden responder: ¿cómo saber si realmente funciona? Este blog aborda la labor práctica de monitorizar la IA en

La gobernanza indica qué requiere supervisión. El monitoreo indica si dicha supervisión está funcionando.

Para desarrollar una guía práctica sobre este desafío, la IHI Leadership Alliance convocó un Acelerador de IA que reunió a líderes de diversas organizaciones de atención médica para identificar estrategias prácticas de monitoreo de IA que reflejen la realidad actual de la atención médica. Las conclusiones que se presentan a continuación reflejan la experiencia colectiva del grupo.

Un ejemplo real de seguimiento y supervisión

Consideremos un ejemplo real de un modelo de IA para la predicción de reingresos por insuficiencia cardíaca, diseñado para identificar pacientes de alto riesgo e impulsar una intervención temprana. Cuando el equipo de ciencia de datos evaluó el rendimiento del modelo, la métrica principal (área bajo la curva [AUC]) superó el umbral estándar de rendimiento aceptable. Según los estándares convencionales, el modelo pareció funcionar bien.

Pero el comité de supervisión planteó una pregunta diferente: cuando este modelo marca a un paciente como de alto riesgo, ¿con qué frecuencia acierta? La respuesta reveló un problema que la métrica principal de rendimiento había ocultado. El modelo era razonablemente eficaz al clasificar a los pacientes de menor a mayor riesgo en términos generales, pero cuando marcaba específicamente a un paciente individual como de alto riesgo, se equivocaba la mayoría de las veces.

Esta distinción es fundamental para el flujo de trabajo clínico. Si un equipo de atención recibe 10 alertas de alto riesgo en una semana y solo uno o dos de esos pacientes son readmitidos, el equipo aprenderá rápidamente a ignorarlas. El modelo se convierte en ruido en lugar de señal, no porque el algoritmo subyacente fallara, sino porque la métrica utilizada para evaluarlo no refleja la realidad de cómo los médicos utilizan la herramienta en la práctica clínica.

La lección es que un monitoreo eficaz requiere plantear las preguntas correctas: no solo "¿Es preciso el modelo?", sino "¿Es preciso el modelo en las maneras en que afecta su integración en los flujos de trabajo del sistema de salud?". Responder a estas preguntas requiere acceso a expertos en ciencia de datos, ya sea a través de equipos internos o socios externos de confianza, que puedan traducir el rendimiento estadístico a la relevancia clínica.

Los tres dominios de la monitorización de la IA

Una monitorización eficaz de la IA no puede centrarse únicamente en la precisión del modelo. Un modelo técnicamente sólido puede no mejorar los resultados de los pacientes si los profesionales sanitarios no confían en él o si la población a la que atiende ha cambiado desde su validación. Por lo tanto, una monitorización integral requiere atención a tres áreas distintas.

Rendimiento estadístico: la precisión técnica del propio modelo . Esto incluye métricas tradicionales como el AUC, la sensibilidad, la especificidad y el valor predictivo positivo y negativo. El rendimiento estadístico proporciona una base necesaria, pero no es suficiente por sí solo. Un modelo validado con datos del año anterior podría no reflejar los pacientes de este año, incluso si sus métricas estadísticas parecen estables. Por lo tanto, el rendimiento estadístico se supervisa periódicamente para facilitar la supervisión del uso del modelo en el sistema sanitario.
Rendimiento de los resultados: si los pacientes se benefician de la implementación de la herramienta de IA. Las métricas estadísticas describen el rendimiento técnico del modelo; las métricas de resultados describen qué sucede con los pacientes como resultado. ¿Disminuyeron los reingresos? ¿Se redujeron las brechas de equidad? ¿Mejoró la mortalidad? Incluso un modelo con un rendimiento estadístico sólido falla si los pacientes no se benefician. Medir el rendimiento de los resultados requiere vincular las predicciones de la IA con los eventos clínicos posteriores. Este trabajo requiere muchos recursos, pero es, en última instancia, la mejor manera de determinar si la herramienta ofrece un valor real.
Adopción por parte de los usuarios: si los profesionales sanitarios utilizan la herramienta según lo previsto. El modelo más preciso no tiene ningún impacto si los profesionales sanitarios lo ignoran. Monitorizar la adopción por parte de los usuarios implica verificar si los profesionales sanitarios interactúan con la herramienta, si siguen sus recomendaciones y si esta se integra fluidamente en los flujos de trabajo existentes o genera fricciones que conducen a soluciones alternativas. El monitoreo de usuarios a menudo revela patrones que las métricas estadísticas por sí solas no podrían captar, como la fatiga por alertas, las interrupciones del flujo de trabajo o las diferencias sistemáticas en la forma en que los distintos equipos de atención interactúan con la misma herramienta.

Realidades prácticas: desarrollo de la capacidad de monitoreo de IA

Las organizaciones deberían estratificar la intensidad de la monitorización según el riesgo. Un modelo clínico que influye en las decisiones de tratamiento para pacientes con enfermedades agudas requiere una monitorización mucho más rigurosa que una herramienta administrativa que facilita la programación de citas. Muchas organizaciones están empezando a clasificar sus herramientas de IA en niveles de riesgo, y los modelos de mayor riesgo reciben una monitorización más intensiva, indicadores clave de rendimiento definidos y ciclos de revisión más frecuentes.

Una monitorización eficaz también requiere responsabilidad interdisciplinaria. La monitorización debe ir más allá del tiempo de actividad técnica e incluir la relevancia clínica, las desviaciones del rendimiento y las consecuencias imprevistas. Algunas organizaciones asignan la responsabilidad compartida de cada modelo implementado a un trío de partes interesadas: un responsable clínico que comprende el contexto asistencial, un científico de datos que puede interpretar el rendimiento del modelo y un profesional de TI que gestiona la infraestructura técnica.

Finalmente, las organizaciones deben ser realistas respecto a los recursos necesarios. Evaluar los modelos de IA para resultados clínicos como la mortalidad o los reingresos requiere mucho tiempo, integración de datos y experiencia analítica. Un monitoreo significativo requiere muchos recursos, y la mayoría de los sistemas de salud aún no cuentan con el personal ni la financiación necesarios para llevarlo a cabo de forma integral. El acceso a expertos en ciencia de datos, ya sea personal interno, colaboraciones académicas o consultores externos de confianza, es esencial para interpretar el rendimiento de los modelos y traducir los hallazgos estadísticos en información práctica para los líderes clínicos y operativos.

Reconociendo las limitaciones actuales

La infraestructura para monitorear continuamente el rendimiento del modelo, segmentar los resultados por subgrupos de pacientes y detectar desviaciones del rendimiento a medida que ocurren aún no existe como herramienta estándar. La mayoría de las organizaciones recurren a auditorías manuales y revisiones periódicas en lugar de paneles de control automatizados. Esta realidad no justifica abandonar el monitoreo; sí justifica ser explícitos sobre lo que las organizaciones pueden requerir razonablemente dadas las capacidades actuales. Como mínimo, los sistemas de salud deberían exigir un monitoreo con una frecuencia definida, especificar qué métricas deben reportarse y en qué formato, y establecer umbrales que den lugar a una reevaluación formal sobre si una herramienta debe seguir utilizándose.

Los enfoques de monitorización para la IA generativa siguen siendo un área de investigación activa. A diferencia de los modelos tradicionales de aprendizaje automático que generan predicciones numéricas, la IA generativa produce texto cuya precisión, integridad, tono y seguridad deben evaluarse. Las métricas y los marcos de monitorización estándar no se adaptan fácilmente a esta nueva categoría de herramientas. Las estrategias iniciales pueden incluir la revisión estructurada por parte de profesionales clínicos, mecanismos de retroalimentación cualitativa y métodos emergentes de evaluación del lenguaje natural, pero las mejores prácticas aún están tomando forma.

Por ahora, el requisito clave es que los equipos que implementan herramientas de IA generativa definan claramente cómo monitorearán el desempeño, en lugar de garantías vagas de que se realizará el monitoreo.

Mirando hacia el futuro

Desarrollar una monitorización eficaz de la IA es un proceso continuo que ninguna organización puede afrontar sola. Los marcos y la infraestructura necesarios aún están en desarrollo, y los sistemas de salud aprenden junto con la propia tecnología. Pero la idea central del Acelerador de IA de Leadership Alliance es clara: la gobernanza sin monitorización es un marco sin visión. Aprobar una herramienta de IA para su implementación es solo el principio. Las organizaciones que tengan éxito con la IA en la atención clínica serán aquellas que se pregunten no solo "¿Aprobamos esta herramienta?", sino "¿Cómo sabemos que sigue funcionando?".

Para obtener más información sobre la IHI Leadership Alliance y las oportunidades de participar en futuros Aceleradores de IA, visite nuestro sitio web.

Lucas Zier, MD, MS es el Director de Rendimiento y Resultados Cardiovasculares del Zuckerberg San Francisco General y cofundador de PROSPECT Lab.

Amy Weckman, MSN, APRN-CNP, CPHQ, CPPS, es directora de IHI .

Natalie Martínez, MPH, es Gerente de Proyectos del IHI .

Foto de Freepik

También te puede interesar:

Inteligencia Artificial (AI) Liderazgo

Breadcrumb