OpenAI تنفتح على مشكلة العفريت الخاصة بها. بعد تقرير من سلكي كشفت تعليمات لنموذج الترميز الخاص بـ OpenAI بعدم التحدث أبدًا عن العفاريت، أو الجريملين، أو الراكون، أو المتصيدون، أو الغيلان، أو الحمام، أو غيرها من الحيوانات أو المخلوقات. نشرت شركة الذكاء الاصطناعي الناشئة شرحًا على موقعها على الإنترنت، ووصفت الإشارات إلى المخلوقات بأنها “عادة غريبة” طورتها نماذجها نتيجة لتدريبها.
كما هو موضح في منشور المدونة، بدأت OpenAI في ملاحظة الاستعارات التي تشير إلى العفاريت والمخلوقات الأخرى بدءًا من طراز GPT-5.1 – على وجه التحديد عند استخدام خيار الشخصية “Nerdy”. تقول شركة OpenAI إن المشكلة استمرت في التفاقم مع إصدارات النماذج اللاحقة، حتى وجدت أن تدريبها المعزز كافأ الاستعارات الملتوية بالشخصية المهووسة، التي كانت النماذج الأحدث تتدرب عليها.
تم تطبيق المكافآت فقط في حالة المهووسين، لكن التعلم المعزز لا يضمن بقاء السلوكيات المتعلمة ضمن نطاق الحالة التي أنتجتها. بمجرد مكافأة أسلوب ما، يمكن للتدريب اللاحق أن ينتشر أو يعززه في مكان آخر، خاصة إذا تم إعادة استخدام تلك المخرجات في الضبط الدقيق أو بيانات التفضيل الخاضعة للإشراف.
على الرغم من تراجع الإشارات إلى العفاريت والجريملين بعد أن أوقفت OpenAI شخصية Nerdy في مارس، إلا أنها لم تختف تمامًا مع جي بي تي-5.5 داخل أداة ترميز Codex الخاصة بها، حيث بدأت OpenAI في تدريب النموذج قبل العثور على “السبب الجذري”. كان على الشركة أن تعطي Codex تعليمات محددة للغاية بعدم الحديث عن المخلوقات الأسطورية نتيجة لذلك. ولكن إذا كنت تفضل الحصول على رمز الذكاء الاصطناعي الخاص بك مع بعض الغيلان، فإن OpenAI هو الذي يفعل ذلك شارك طريقة لعكس تعليماته.


