في خطوة تعكس الوعي المتزايد بالمخاطر المحتملة للذكاء الاصطناعي المتطور كشفت شركة OpenAI عن تطبيق نظام مراقبة جديد ومخصص لأحدث نماذجها اللغوية O3 و o4-mini يهدف هذا الإجراء الاستباقي إلى منع أي محاولة لاستغلال قدرات هذه النماذج في تطوير أو نشر تهديدات بيولوجية أو كيميائية مما يشكل تطورا مهما في استراتيجيات الأمان الرقمي للشركة.
OpenAI تبدأ خطة رقابة صارمة
أوضحت OpenAI في تقرير السلامة الأخير الذي نشرته أن هذا النظام الجديد مصمم خصيصا لكشف ورصد أي محاولات من المستخدمين للحصول على معلومات أو إرشادات يمكن إساءة استخدامها في تنفيذ هجمات بيولوجية أو كيميائية يأتي هذا التركيز نتيجة للإدراك بأن النموذجين الجديدين O3 و o4-mini يتمتعان بقدرات تحليل واستجابة أكثر تطورا من الإصدارات السابقة وهو ما قد يزيد من احتمالية استجابتهما لأسئلة حساسة تتعلق بإنتاج مواد خطرة إذا لم يتم التحكم بها بشكل فعال.
آلية العمل وفعالية مثبتة
أطلقت الشركة على هذا النظام اسم "نظام المراقبة المنطقي" ويعمل عن طريق رصد الكلمات المفتاحية والمحفزات والمضامين النصية التي ترتبط بالأسلحة البيولوجية والكيميائية وعند اكتشاف مثل هذه المحاولات يقوم النظام بتوجيه نماذج الذكاء الاصطناعي لرفض تقديم أي استجابة قد تنتهك سياسات المحتوى الصارمة التي وضعتها الشركة وللتحقق من فعالية النظام خصص فريق "القبعة الحمراء" (Red Team) التابع للشركة ما يقرب من ألف ساعة لتحليل واختبار النظام من خلال محاكاة محادثات غير آمنة وقد أظهرت النتائج نسبة نجاح مبهرة بلغت 98.7% في رفض المطالبات التي تم تصنيفها على أنها خطيرة.
ثغرات محتملة ورقابة مستمرة
على الرغم من هذا النجاح المبدئي أقرت اوبن اي اي بوجود ثغرات محتملة حيث قد يلجأ بعض المستخدمين إلى تغيير أسلوب طرح الأسئلة أو استخدام لغة ملتوية لمحاولة التحايل على آليات الحظر والمراقبة لهذا السبب لا تزال الشركة تعتمد بشكل جزئي على الرقابة البشرية لمراجعة بعض التفاعلات وتحديد الأنماط الجديدة للمحتوى الخطير وتؤكد الشركة أن نماذجها الحالية لا تزال ضمن مستويات الخطورة المقبولة ولم تصل بعد إلى مرحلة "الخطر العالي" لكن القدرات المتنامية لنموذجي O3 و o4-mini خاصة في المجالات العلمية الحساسة تضعهما تحت مراقبة مستمرة ودقيقة مقارنة بالنماذج الأقدم مثل GPT-4 و o1.
مخاوف حول وتيرة الأمان والتطوير
أوضحت OpenAI أنها تطبق آليات مماثلة لضبط المحتوى المرئي في نماذج أخرى مثل GPT-4o لمنع إنشاء محتوى استغلالي أو ضار ومع ذلك لا تزال هناك مخاوف لدى بعض الباحثين والمتخصصين في مجال أخلاقيات الذكاء الاصطناعي من أن وتيرة تطوير تدابير السلامة قد لا تواكب بالضرورة التسارع الكبير في تطوير قدرات نماذج الذكاء الاصطناعي وتزداد هذه المخاوف مع غياب تقرير سلامة مفصل لنموذج GPT-4.1 الذي أطلقته الشركة مؤخرا مما يثير تساؤلات حول مدى جاهزيته ومستوى المخاطر المحتملة المرتبطة به وتؤكد هذه التطورات على أهمية الحوار المستمر والشفافية حول جهود تأمين الذكاء الاصطناعي المتقدم.