رؤى

المراقبة بالذكاء الاصطناعي: من مقاييس النموذج إلى نتائج المرضى

March 04, 2026

By لوكاس زير، وآمي ويكمان، وناتالي مارتينيز

Summary

مع ازدياد انتشار الذكاء الاصطناعي، تواجه الأنظمة الصحية سؤالاً عملياً لا تستطيع هياكل الحوكمة وحدها الإجابة عليه: كيف يمكن التأكد من فعاليته؟ تتناول هذه المدونة العمل العملي لمراقبة الذكاء الاصطناعي في الواقع.

تحدد الحوكمة ما يتطلب إشرافاً. وتحدد المراقبة ما إذا كان هذا الإشراف فعالاً.

بهدف وضع توجيهات عملية لمواجهة هذا التحدي، عقد IHI Leadership Alliance) ورشة عمل لتسريع الذكاء الاصطناعي، جمعت قادة من مؤسسات رعاية صحية متنوعة لتحديد استراتيجيات عملية لمراقبة الذكاء الاصطناعي تعكس الواقع الحالي لتقديم الرعاية الصحية. وتعكس النتائج التالية الخبرة الجماعية لهذه المجموعة.

مثال واقعي للمراقبة والإشراف

لنأخذ مثالاً واقعياً لنموذج ذكاء اصطناعي للتنبؤ بإعادة دخول مرضى قصور القلب إلى المستشفى، مصمم لتحديد المرضى المعرضين لخطر كبير وحثهم على التدخل المبكر. عندما قيّم فريق علوم البيانات أداء النموذج، تجاوز المقياس الرئيسي - المساحة تحت المنحنى (AUC) - الحد الأدنى المقبول للأداء. وفقاً للمعايير التقليدية، بدا أن أداء النموذج جيد.

لكن لجنة الرقابة طرحت سؤالاً مختلفاً: عندما يصنف هذا النموذج مريضاً ما على أنه عالي الخطورة، ما مدى صحة هذا التصنيف؟ كشفت الإجابة عن مشكلة أخفاها مقياس الأداء الأساسي. كان النموذج جيداً إلى حد معقول في تصنيف المرضى من الأقل خطورة إلى الأكثر خطورة بشكل عام، لكن عندما صنف مريضاً بعينه على أنه عالي الخطورة، كان مخطئاً في معظم الأحيان.

يُعدّ هذا التمييز بالغ الأهمية لسير العمل السريري. فإذا تلقى فريق الرعاية عشرة تنبيهات عالية الخطورة في أسبوع، ولم يُعاد إدخال سوى مريض أو اثنين منهم إلى المستشفى، فسيتعلم الفريق سريعًا تجاهل هذه التنبيهات. يصبح النموذج حينها مجرد ضوضاء بدلًا من كونه مؤشرًا دقيقًا، ليس بسبب فشل الخوارزمية الأساسية، بل لأن المقياس المستخدم لتقييمها لا يعكس واقع استخدام الأطباء لهذه الأداة في الممارسة السريرية.

الدرس المستفاد هو أن المراقبة الفعالة تتطلب طرح الأسئلة الصحيحة: ليس فقط "هل النموذج دقيق؟" ولكن "هل النموذج دقيق بالطرق التي تؤثر على كيفية دمجه في سير عمل النظام الصحي؟" تتطلب الإجابة على هذه الأسئلة الوصول إلى خبرة علم البيانات - سواء من خلال فرق داخلية أو شركاء خارجيين موثوق بهم - الذين يمكنهم الترجمة بين الأداء الإحصائي والأهمية السريرية.

المجالات الثلاثة لرصد الذكاء الاصطناعي

لا يمكن للمراقبة الفعالة باستخدام الذكاء الاصطناعي أن تركز على دقة النموذج فقط. فقد يفشل نموذج سليم تقنيًا في تحسين نتائج المرضى إذا لم يثق به الأطباء أو إذا تغيرت خصائص المرضى الذين يخدمهم منذ التحقق من صحته. لذا، تتطلب المراقبة الشاملة الاهتمام بثلاثة مجالات متميزة.

الأداء الإحصائي – الدقة التقنية للنموذج نفسه . يشمل ذلك المقاييس التقليدية مثل مساحة تحت المنحنى (AUC)، والحساسية، والنوعية، والقيمة التنبؤية الإيجابية والسلبية. يوفر الأداء الإحصائي أساسًا ضروريًا، ولكنه غير كافٍ بمفرده. قد لا يعكس نموذج تم التحقق من صحته باستخدام بيانات العام الماضي بيانات مرضى هذا العام، حتى لو بدت مقاييسه الإحصائية مستقرة. لذلك، تتم مراقبة الأداء الإحصائي بانتظام لدعم الإشراف على كيفية استخدام النموذج في نظام الرعاية الصحية.
أداء النتائج - مدى استفادة المرضى من استخدام أداة الذكاء الاصطناعي. تصف المقاييس الإحصائية مدى كفاءة النموذج من الناحية التقنية، بينما تصف مقاييس النتائج ما يحدث للمرضى نتيجة لذلك. هل انخفضت حالات إعادة الإدخال إلى المستشفى؟ هل تقلصت فجوات العدالة؟ هل تحسنت معدلات الوفيات؟ حتى النموذج ذو الأداء الإحصائي القوي يفشل إذا لم يستفد منه المرضى. يتطلب قياس أداء النتائج ربط تنبؤات الذكاء الاصطناعي بالأحداث السريرية اللاحقة. هذا العمل كثيف الموارد، ولكنه في النهاية أفضل طريقة لتحديد ما إذا كانت الأداة تقدم قيمة حقيقية في الواقع.
مدى استخدام المستخدمين للأداة - أي مدى استخدام الأطباء لها بالشكل الأمثل. حتى أدق النماذج لا تُجدي نفعًا إذا تجاهلها مقدمو الرعاية الصحية. يعني رصد مدى استخدام المستخدمين تتبع تفاعلهم مع الأداة، والتزامهم بتوصياتها، وتكاملها السلس مع سير العمل الحالي، أو ما إذا كانت تُسبب صعوبات تدفعهم إلى البحث عن حلول بديلة. غالبًا ما يكشف رصد المستخدمين عن أنماط لا تستطيع المقاييس الإحصائية وحدها رصدها، مثل الإرهاق من كثرة التنبيهات، واضطرابات سير العمل، أو الاختلافات المنهجية في كيفية تفاعل فرق الرعاية المختلفة مع الأداة نفسها.

الحقائق العملية: بناء قدرات المراقبة بالذكاء الاصطناعي

ينبغي للمؤسسات تصنيف كثافة المراقبة حسب مستوى الخطورة. فالنموذج السريري الذي يؤثر على قرارات علاج المرضى ذوي الحالات الحرجة يتطلب مراقبة أكثر دقة بكثير من أداة إدارية تساعد في جدولة المواعيد. وقد بدأت العديد من المؤسسات بتصنيف أدوات الذكاء الاصطناعي لديها إلى مستويات خطورة، حيث تخضع النماذج ذات الخطورة الأعلى لمراقبة أكثر كثافة، ومؤشرات أداء رئيسية محددة، ودورات مراجعة أكثر تكرارًا.

يتطلب الرصد الفعال أيضاً مسؤولية مشتركة بين مختلف الأقسام. يجب أن يتجاوز الرصد مجرد ضمان استمرارية عمل النظام ليشمل الجوانب السريرية، وتغيرات الأداء، والآثار الجانبية غير المقصودة. تقوم بعض المؤسسات بتوزيع المسؤولية المشتركة عن كل نموذج مُطبّق على ثلاثة أطراف معنية: قائد سريري مُلِمّ بسياق الرعاية، وعالم بيانات قادر على تحليل أداء النموذج، ومختص في تكنولوجيا المعلومات يُدير البنية التحتية التقنية.

أخيرًا، يجب على المؤسسات أن تكون واقعية بشأن الموارد المطلوبة. يتطلب تقييم نماذج الذكاء الاصطناعي للنتائج السريرية، مثل الوفيات أو إعادة الإدخال إلى المستشفى، وقتًا طويلًا، وتكاملًا للبيانات، وخبرة تحليلية كبيرة. يُعدّ الرصد الفعال عملية كثيفة الموارد، ومعظم الأنظمة الصحية لا تملك بعدُ الكوادر أو التمويل اللازمين للقيام بذلك بشكل شامل. يُعدّ الوصول إلى خبرات علم البيانات - سواءً من خلال الكوادر الداخلية، أو الشراكات الأكاديمية، أو الاستشاريين الخارجيين الموثوق بهم - أمرًا بالغ الأهمية لتفسير أداء النموذج وترجمة النتائج الإحصائية إلى رؤى قابلة للتنفيذ للقادة السريريين والتشغيليين.

مع الإقرار بالقيود الحالية

لا تتوفر حتى الآن بنية تحتية جاهزة للاستخدام لتتبع أداء النماذج باستمرار، وتصنيف النتائج حسب مجموعات المرضى الفرعية، واكتشاف أي انحراف في الأداء فور حدوثه. تعتمد معظم المؤسسات على عمليات التدقيق اليدوية والمراجعات الدورية بدلاً من لوحات المعلومات الآلية. هذا الواقع ليس مبرراً للتخلي عن المراقبة، بل هو سببٌ لتوضيح ما يمكن للمؤسسات طلبه بشكل معقول في ضوء الإمكانيات الحالية. كحد أدنى، ينبغي أن تشترط الأنظمة الصحية المراقبة بوتيرة محددة، وأن تحدد المقاييس التي يجب الإبلاغ عنها وتنسيقها، وأن تضع عتبات تستدعي إعادة تقييم رسمية لمدى جدوى استمرار استخدام الأداة.

لا تزال أساليب مراقبة الذكاء الاصطناعي التوليدي مجالًا نشطًا للبحث. فبخلاف نماذج التعلم الآلي التقليدية التي تُنتج تنبؤات رقمية، يُنتج الذكاء الاصطناعي التوليدي نصوصًا يجب تقييمها من حيث الدقة والشمولية والأسلوب والسلامة. ولا تُترجم المقاييس وأطر المراقبة القياسية بسلاسة إلى هذه الفئة الجديدة من الأدوات. وقد تشمل الاستراتيجيات الأولية مراجعة سريرية منظمة، وآليات تغذية راجعة نوعية، وأساليب تقييم اللغة الطبيعية الناشئة، إلا أن أفضل الممارسات لا تزال قيد التبلور.

في الوقت الحالي، يتمثل الشرط الأساسي في أن تقوم الفرق التي تستخدم أدوات الذكاء الاصطناعي التوليدي بتحديد كيفية مراقبة الأداء بوضوح، بدلاً من التأكيدات الغامضة بأن المراقبة ستحدث.

نظرة مستقبلية

يُعدّ تطوير أنظمة مراقبة فعّالة تعتمد على الذكاء الاصطناعي رحلةً مستمرة، لا تستطيع أي مؤسسة خوضها بمفردها. فالأطر والبنية التحتية اللازمة لا تزال قيد التطوير، وتتعلم الأنظمة الصحية بالتوازي مع التكنولوجيا نفسها. لكنّ الرؤية الأساسية التي توصل إليها برنامج تسريع الذكاء الاصطناعي التابع لتحالف القيادة واضحة: الحوكمة بدون مراقبة هي إطار بلا صورة. إنّ الموافقة على استخدام أداة ذكاء اصطناعي ليست سوى البداية. فالمؤسسات التي ستنجح في توظيف الذكاء الاصطناعي في الرعاية السريرية هي تلك التي لا تكتفي بالسؤال "هل وافقنا على هذه الأداة؟" بل تسأل "كيف نتأكد من أنها لا تزال تعمل؟"

لمعرفة المزيد عن IHI Leadership Alliance وفرص المشاركة في مسرعات الذكاء الاصطناعي المستقبلية، يرجى زيارة موقعنا الإلكتروني.

لوكاس زير، الحاصل على دكتوراه في الطب وماجستير في العلوم، هو مدير قسم الأداء والنتائج القلبية الوعائية في مستشفى زوكربيرج سان فرانسيسكو العام، والمؤسس المشارك لمختبر PROSPECT.

إيمي ويكمان، MSN، APRN-CNP، CPHQ، CPPS، هي مديرة IHI .

ناتالي مارتينيز، الحاصلة على ماجستير في الصحة العامة، هي مديرة مشاريع في IHI) .

صورة من تصوير فريبك

قد يهمك أيضًا ما يلي:

الذكاء الاصطناعي (AI) قيادة

Breadcrumb