Summary
- Avec la généralisation de l'IA, les systèmes de santé sont confrontés à une question pratique à laquelle les structures de gouvernance seules ne peuvent répondre : comment savoir si elle fonctionne réellement ? Ce blog aborde les aspects pratiques du
La gouvernance indique ce qui nécessite une surveillance. Le suivi permet de vérifier si cette surveillance est efficace.
Afin d'élaborer des recommandations concrètes pour relever ce défi, l' IHI Leadership Alliance a mis sur pied un accélérateur d'IA réunissant des dirigeants de diverses organisations de soins de santé pour identifier des stratégies pratiques de surveillance par l'IA adaptées aux réalités actuelles de la prestation de soins. Les conclusions qui suivent reflètent l'expérience collective du groupe.
Un exemple concret de surveillance et de contrôle
Prenons l'exemple concret d'un modèle d'IA prédictif de réhospitalisation pour insuffisance cardiaque, conçu pour identifier les patients à haut risque et favoriser une intervention plus précoce. Lors de l'évaluation des performances du modèle par l'équipe de data scientists, l'indicateur principal – l'aire sous la courbe (AUC) – a dépassé le seuil standard de performance acceptable. Selon les critères habituels, le modèle semblait performant.
Mais le comité de surveillance a posé une autre question : lorsque ce modèle signale un patient comme étant à haut risque, avec quelle fréquence se trompe-t-il ? La réponse a révélé un problème que l’indicateur de performance principal avait masqué. Le modèle était relativement performant pour classer les patients par ordre de risque croissant, mais lorsqu’il s’agissait de signaler un patient en particulier comme étant à haut risque, il se trompait la plupart du temps.
Cette distinction est cruciale pour le flux de travail clinique. Si une équipe soignante reçoit dix alertes à haut risque en une semaine et que seulement un ou deux patients sont réadmis, elle apprendra rapidement à ignorer ces alertes. Le modèle devient alors un signal plutôt qu'un bruit de fond, non pas à cause d'une défaillance de l'algorithme sous-jacent, mais parce que l'indicateur utilisé pour l'évaluer ne reflète pas la réalité de son utilisation par les cliniciens dans leur pratique.
La leçon à retenir est que le suivi efficace nécessite de poser les bonnes questions : non pas seulement « Le modèle est-il précis ? » mais « Le modèle est-il précis quant à son intégration dans les flux de travail du système de santé ? » Répondre à ces questions requiert l’accès à une expertise en science des données — que ce soit par le biais d’équipes internes ou de partenaires externes de confiance — capables de faire le lien entre performance statistique et pertinence clinique.
Les trois domaines de la surveillance par IA
Un suivi efficace de l'IA ne peut se limiter à la précision du modèle. Un modèle techniquement irréprochable peut néanmoins échouer à améliorer les résultats pour les patients si les cliniciens n'ont pas confiance en lui ou si la population cible a évolué depuis sa validation. Un suivi complet exige donc de prendre en compte trois domaines distincts.
- La performance statistique correspond à la précision technique du modèle . Elle inclut des indicateurs classiques comme l'AUC, la sensibilité, la spécificité et les valeurs prédictives positives et négatives. Si la performance statistique constitue un fondement nécessaire, elle n'est pas suffisante à elle seule. Un modèle validé sur les données de l'année précédente peut ne plus être représentatif des patients de cette année, même si ses indicateurs statistiques semblent stables. C'est pourquoi la performance statistique est régulièrement surveillée afin de garantir le contrôle de l'utilisation du modèle au sein du système de santé.
- Performance des résultats – les patients bénéficient-ils du déploiement de l'outil d'IA ? Les indicateurs statistiques décrivent la performance technique du modèle ; les indicateurs de résultats décrivent son impact sur les patients. Les réadmissions ont-elles diminué ? Les inégalités se sont-elles réduites ? La mortalité a-t-elle baissé ? Même un modèle aux excellentes performances statistiques est inefficace si les patients n'en tirent aucun bénéfice. Mesurer la performance des résultats nécessite de relier les prédictions de l'IA aux événements cliniques ultérieurs. Ce travail est exigeant en ressources, mais il constitue, en définitive, la meilleure façon de déterminer si l'outil apporte une réelle valeur ajoutée.
- Adoption par les utilisateurs – l’utilisation de l’outil par les cliniciens conformément aux objectifs. Le modèle le plus précis est inutile si les professionnels de santé l’ignorent. Le suivi de l’adoption par les utilisateurs consiste à vérifier si les cliniciens utilisent l’outil, s’ils suivent ses recommandations et si l’outil s’intègre facilement aux flux de travail existants ou s’il crée des difficultés nécessitant des solutions de contournement. Ce suivi révèle souvent des tendances que les seules statistiques ne permettraient pas de déceler, comme la saturation des alertes, les perturbations des flux de travail ou les différences systématiques dans l’utilisation d’un même outil par différentes équipes soignantes.
Réalités pratiques : Renforcer les capacités de surveillance par IA
Les organisations devraient adapter l'intensité du suivi en fonction du risque. Un modèle clinique influençant les décisions thérapeutiques pour les patients en phase aiguë exige un suivi bien plus rigoureux qu'un outil administratif de prise de rendez-vous. De nombreuses organisations commencent à classer leurs outils d'IA par niveaux de risque : les modèles à haut risque font l'objet d'un suivi plus intensif, d'indicateurs clés de performance définis et de cycles d'évaluation plus fréquents.
Un suivi efficace requiert également une implication transversale. Il doit aller au-delà de la simple disponibilité technique et inclure la pertinence clinique, les dérives de performance et les conséquences imprévues. Certaines organisations confient la responsabilité de chaque modèle déployé à un trio d'acteurs : un responsable clinique qui comprend le contexte des soins, un data scientist capable d'interpréter les performances du modèle et un informaticien qui gère l'infrastructure technique.
Enfin, les organisations doivent être réalistes quant aux ressources nécessaires. L'évaluation des modèles d'IA pour des résultats cliniques tels que la mortalité ou la réadmission exige un investissement considérable en temps, l'intégration de données et une expertise analytique pointue. Un suivi pertinent est gourmand en ressources, et la plupart des systèmes de santé ne disposent pas encore du personnel ni des financements nécessaires pour le mettre en œuvre de manière exhaustive. L'accès à une expertise en science des données – qu'il s'agisse de personnel interne, de partenariats universitaires ou de consultants externes de confiance – est essentiel pour interpréter les performances des modèles et traduire les résultats statistiques en informations exploitables pour les responsables cliniques et opérationnels.
Reconnaître les limites actuelles
L'infrastructure permettant de suivre en continu les performances des modèles, de segmenter les résultats par sous-groupes de patients et de détecter les dérives de performance dès leur apparition n'est pas encore disponible sous forme de solution prête à l'emploi. La plupart des organisations privilégient les audits manuels et les revues périodiques aux tableaux de bord automatisés. Ce constat ne justifie pas l'abandon du suivi ; il invite à définir clairement les exigences raisonnables des organisations compte tenu de leurs capacités actuelles. À tout le moins, les systèmes de santé devraient exiger un suivi à une fréquence définie, préciser les indicateurs à communiquer et leur format, et établir des seuils déclenchant une réévaluation formelle de la pertinence du maintien en service d'un outil.
Les méthodes de surveillance de l'IA générative font l'objet de recherches actives. Contrairement aux modèles d'apprentissage automatique classiques qui produisent des prédictions numériques, l'IA générative génère du texte dont l'exactitude, l'exhaustivité, le ton et la sécurité doivent être évalués. Les indicateurs et cadres de surveillance standards ne sont pas directement transposables à cette nouvelle catégorie d'outils. Les stratégies initiales peuvent inclure une évaluation structurée par des cliniciens, des mécanismes de retour d'information qualitatifs et des méthodes émergentes d'évaluation du langage naturel, mais les bonnes pratiques sont encore en cours d'élaboration.
Pour l'instant, l'exigence essentielle est que les équipes déployant des outils d'IA générative définissent clairement comment elles surveilleront les performances, plutôt que de se contenter de vagues assurances quant à la mise en place de cette surveillance.
Perspectives d'avenir
Développer une surveillance efficace par l'IA est un processus continu, qu'aucune organisation ne peut entreprendre seule. Les cadres et infrastructures nécessaires sont encore en développement, et les systèmes de santé apprennent en même temps que la technologie elle-même. Mais l'enseignement principal du Leadership Alliance AI Accelerator est clair : une gouvernance sans surveillance est un cadre sans vision. Approuver un outil d'IA pour son déploiement n'est que le point de départ. Les organisations qui réussiront avec l'IA dans les soins cliniques seront celles qui se poseront non seulement la question « Avons-nous approuvé cet outil ? » mais aussi « Comment pouvons-nous nous assurer de son bon fonctionnement ? »
Pour en savoir plus sur l' IHI Leadership Alliance et les possibilités de participer aux futurs accélérateurs d'IA, veuillez consulter notre site web.
Lucas Zier, MD, MS, est directeur de la performance et des résultats cardiovasculaires au Zuckerberg San Francisco General et cofondateur du laboratoire PROSPECT.
Amy Weckman, MSN, APRN-CNP, CPHQ, CPPS, est directrice de IHI .
Natalie Martinez, titulaire d'une maîtrise en santé publique, est chef de projet à IHI .
Photo par Freepik
Vous pourriez également être intéressé par :
