Percepções

Monitoramento por IA: das métricas do modelo aos resultados para o paciente

March 04, 2026

By Lucas Zier, Amy Weckman e Natalie Martinez

Summary

Com a crescente disseminação da IA, os sistemas de saúde enfrentam uma questão prática que as estruturas de governança, por si só, não conseguem responder: como saber se ela está realmente funcionando? Este blog aborda o trabalho prático de monitoramento

A governança define o que precisa ser supervisionado. O monitoramento indica se essa supervisão está funcionando.

Para desenvolver orientações práticas sobre esse desafio, a IHI Leadership Alliance organizou um Acelerador de IA que reuniu líderes de diversas organizações de saúde para identificar estratégias práticas de monitoramento por IA que reflitam as realidades atuais da prestação de serviços de saúde. As conclusões a seguir refletem a experiência coletiva do grupo.

Um exemplo prático de monitoramento e supervisão.

Considere um exemplo real de um modelo de IA para predição de reinternação por insuficiência cardíaca, projetado para identificar pacientes de alto risco e promover intervenção precoce. Quando a equipe de ciência de dados avaliou o desempenho do modelo, a principal métrica — área sob a curva (AUC) — excedeu o limite padrão para desempenho aceitável. Pelos padrões convencionais, o modelo pareceu ter um bom desempenho.

Mas o comitê de supervisão fez uma pergunta diferente: quando esse modelo classifica um paciente como de alto risco, com que frequência ele está correto? A resposta revelou um problema que a principal métrica de desempenho havia obscurecido. O modelo era razoavelmente bom em classificar os pacientes de menor para maior risco em termos gerais, mas quando classificava especificamente um paciente individual como de alto risco, ele estava errado na maioria das vezes.

Essa distinção é extremamente importante para o fluxo de trabalho clínico. Se uma equipe de atendimento recebe 10 alertas de alto risco em uma semana e apenas um ou dois desses pacientes são readmitidos, a equipe aprenderá rapidamente a ignorar os alertas. O modelo se torna ruído em vez de sinal — não porque o algoritmo subjacente falhou, mas porque a métrica usada para avaliá-lo não reflete a realidade de como os médicos utilizam a ferramenta na prática clínica.

A lição é que o monitoramento eficaz exige que se façam as perguntas certas: não apenas "O modelo é preciso?", mas "O modelo é preciso nas maneiras que afetam sua integração aos fluxos de trabalho do sistema de saúde?". Responder a essas perguntas requer acesso a especialistas em ciência de dados — seja por meio de equipes internas ou parceiros externos confiáveis — que possam traduzir o desempenho estatístico em relevância clínica.

Os três domínios do monitoramento de IA

O monitoramento eficaz da IA não pode se concentrar apenas na precisão do modelo. Um modelo tecnicamente sólido ainda pode falhar em melhorar os resultados dos pacientes se os médicos não confiarem nele ou se a população atendida tiver mudado desde a validação. Portanto, o monitoramento abrangente requer atenção a três domínios distintos.

Desempenho estatístico – a precisão técnica do próprio modelo . Isso inclui métricas tradicionais como AUC, sensibilidade, especificidade e valores preditivos positivo e negativo. O desempenho estatístico fornece uma base necessária, mas não é suficiente por si só. Um modelo validado com dados do ano passado pode não refletir mais os pacientes deste ano, mesmo que suas métricas estatísticas pareçam estáveis. Portanto, o desempenho estatístico é monitorado regularmente para auxiliar na supervisão de como o modelo é utilizado no sistema de saúde.
Desempenho dos resultados – se os pacientes se beneficiam da implementação da ferramenta de IA. As métricas estatísticas descrevem o desempenho técnico do modelo; as métricas de resultados descrevem o que acontece com os pacientes como consequência. As reinternações diminuíram? As desigualdades foram reduzidas? A mortalidade melhorou? Mesmo um modelo com forte desempenho estatístico falha se os pacientes não se beneficiarem. Medir o desempenho dos resultados exige vincular as previsões da IA a eventos clínicos subsequentes. Esse trabalho demanda muitos recursos, mas é, em última análise, a melhor maneira de determinar se a ferramenta oferece valor real.
Adoção pelo usuário – se os profissionais de saúde utilizam a ferramenta conforme o planejado. O modelo mais preciso não tem impacto algum se os profissionais a ignorarem. Monitorar a adoção pelo usuário significa acompanhar se os profissionais de saúde interagem com a ferramenta, se seguem suas recomendações e se a ferramenta se integra perfeitamente aos fluxos de trabalho existentes ou se cria atritos que levam a soluções alternativas. O monitoramento do usuário frequentemente revela padrões que as métricas estatísticas sozinhas jamais capturariam, como fadiga de alertas, interrupções no fluxo de trabalho ou diferenças sistemáticas na forma como diferentes equipes de saúde interagem com a mesma ferramenta.

Realidades práticas: Construindo capacidade de monitoramento por IA

As organizações devem estratificar a intensidade do monitoramento por risco. Um modelo clínico que influencia as decisões de tratamento para pacientes gravemente enfermos requer um monitoramento muito mais rigoroso do que uma ferramenta administrativa que auxilia no agendamento de consultas. Muitas organizações estão começando a classificar suas ferramentas de IA em níveis de risco, com modelos de maior risco recebendo monitoramento mais intensivo, indicadores-chave de desempenho definidos e ciclos de revisão mais frequentes.

O monitoramento eficaz também exige responsabilidade transversal entre as diferentes áreas. O monitoramento deve ir além do tempo de atividade técnica, incluindo a relevância clínica, a deriva de desempenho e as consequências não intencionais. Algumas organizações estão atribuindo a responsabilidade compartilhada por cada modelo implementado a uma tríade de partes interessadas: um líder clínico que compreenda o contexto do atendimento, um cientista de dados que possa interpretar o desempenho do modelo e um profissional de TI que gerencie a infraestrutura técnica.

Por fim, as organizações precisam ser realistas quanto aos recursos necessários. Avaliar modelos de IA para desfechos clínicos, como mortalidade ou readmissão, exige tempo considerável, integração de dados e expertise analítica. O monitoramento eficaz demanda muitos recursos, e a maioria dos sistemas de saúde ainda não possui pessoal ou financiamento suficientes para realizá-lo de forma abrangente. O acesso a especialistas em ciência de dados — seja por meio de equipe interna, parcerias acadêmicas ou consultores externos de confiança — é essencial para interpretar o desempenho do modelo e traduzir as descobertas estatísticas em insights acionáveis para líderes clínicos e operacionais.

Reconhecendo as limitações atuais

A infraestrutura para monitorar continuamente o desempenho do modelo, segmentar os resultados por subgrupos de pacientes e detectar desvios de desempenho à medida que ocorrem ainda não existe como ferramenta pronta para uso. A maioria das organizações depende de auditorias manuais e revisões periódicas, em vez de painéis automatizados. Essa realidade não é motivo para abandonar o monitoramento; é motivo para explicitar o que as organizações podem razoavelmente exigir, considerando as capacidades atuais. No mínimo, os sistemas de saúde devem exigir monitoramento em uma cadência definida, especificar quais métricas devem ser relatadas e em qual formato, e estabelecer limites que desencadeiem uma reavaliação formal sobre a necessidade de manter uma ferramenta em uso.

As abordagens de monitoramento para IA generativa continuam sendo uma área ativa de investigação. Ao contrário dos modelos tradicionais de aprendizado de máquina que produzem previsões numéricas, a IA generativa gera texto que precisa ser avaliado quanto à precisão, completude, tom e segurança. As métricas e estruturas de monitoramento padrão não se adaptam facilmente a essa nova categoria de ferramentas. Estratégias iniciais podem incluir revisão clínica estruturada, mecanismos de feedback qualitativo e métodos emergentes de avaliação de linguagem natural, mas as melhores práticas ainda estão sendo definidas.

Por ora, o requisito fundamental é que as equipes que implementam ferramentas de IA generativa definam claramente como monitorarão o desempenho, em vez de oferecerem vagas garantias de que o monitoramento ocorrerá.

Olhando para o futuro

Desenvolver um monitoramento eficaz por IA é uma jornada contínua, e nenhuma organização consegue trilhá-la sozinha. As estruturas e a infraestrutura necessárias ainda estão em processo de amadurecimento, e os sistemas de saúde estão aprendendo junto com a própria tecnologia. Mas a principal conclusão do programa Leadership Alliance AI Accelerator é clara: governança sem monitoramento é uma moldura sem imagem. Aprovar uma ferramenta de IA para implantação é apenas o começo. As organizações que tiverem sucesso com a IA na assistência clínica serão aquelas que não se perguntarem apenas "Aprovamos esta ferramenta?", mas sim "Como sabemos que ela ainda está funcionando?".

Para saber mais sobre a IHI Leadership Alliance e as oportunidades de participar em futuros Aceleradores de IA, visite o nosso site.

Lucas Zier, MD, MS, é o Diretor de Desempenho e Resultados Cardiovasculares do Zuckerberg San Francisco General e cofundador do PROSPECT Lab.

Amy Weckman, MSN, APRN-CNP, CPHQ, CPPS, é Diretora do IHI .

Natalie Martinez, MPH, é Gerente de Projetos do IHI .

Foto por Freepik

Você também pode se interessar por:

Inteligência Artificial (IA) Liderança

Breadcrumb