spot_img

ذات صلة

جمع

يتحدث OpenAI عن عدم الحديث عن العفاريت

OpenAI تنفتح على مشكلة العفريت الخاصة بها. بعد تقرير...

فقدت Meta 20 مليون مستخدم في الربع الأخير

وتخطط شركة ميتا لضخ المزيد من المليارات في استثمارات...

نموذج الأمان الجديد لـ OpenAI مخصص لـ “المدافعين السيبرانيين المهمين” فقط

تستعد شركة OpenAI لإطلاق نموذج جديد للأمن السيبراني، GPT-5.5-Cyber....

مراجعة DJI’s Osmo Pocket 4: الأفضل من جميع النواحي

في البداية، جاءوا من أجل الطائرات بدون طيار، والآن...

ألد أعداء إيلون ماسك في المحكمة هو إيلون ماسك

بعد حوالي خمس ساعات من شهادة إيلون ماسك، كتبت...

يتحدث OpenAI عن عدم الحديث عن العفاريت


OpenAI تنفتح على مشكلة العفريت الخاصة بها. بعد تقرير من سلكي كشفت تعليمات لنموذج الترميز الخاص بـ OpenAI بعدم التحدث أبدًا عن العفاريت، أو الجريملين، أو الراكون، أو المتصيدون، أو الغيلان، أو الحمام، أو غيرها من الحيوانات أو المخلوقات. نشرت شركة الذكاء الاصطناعي الناشئة شرحًا على موقعها على الإنترنت، ووصفت الإشارات إلى المخلوقات بأنها “عادة غريبة” طورتها نماذجها نتيجة لتدريبها.

كما هو موضح في منشور المدونة، بدأت OpenAI في ملاحظة الاستعارات التي تشير إلى العفاريت والمخلوقات الأخرى بدءًا من طراز GPT-5.1 – على وجه التحديد عند استخدام خيار الشخصية “Nerdy”. تقول شركة OpenAI إن المشكلة استمرت في التفاقم مع إصدارات النماذج اللاحقة، حتى وجدت أن تدريبها المعزز كافأ الاستعارات الملتوية بالشخصية المهووسة، التي كانت النماذج الأحدث تتدرب عليها.

تم تطبيق المكافآت فقط في حالة المهووسين، لكن التعلم المعزز لا يضمن بقاء السلوكيات المتعلمة ضمن نطاق الحالة التي أنتجتها. بمجرد مكافأة أسلوب ما، يمكن للتدريب اللاحق أن ينتشر أو يعززه في مكان آخر، خاصة إذا تم إعادة استخدام تلك المخرجات في الضبط الدقيق أو بيانات التفضيل الخاضعة للإشراف.

على الرغم من تراجع الإشارات إلى العفاريت والجريملين بعد أن أوقفت OpenAI شخصية Nerdy في مارس، إلا أنها لم تختف تمامًا مع جي بي تي-5.5 داخل أداة ترميز Codex الخاصة بها، حيث بدأت OpenAI في تدريب النموذج قبل العثور على “السبب الجذري”. كان على الشركة أن تعطي Codex تعليمات محددة للغاية بعدم الحديث عن المخلوقات الأسطورية نتيجة لذلك. ولكن إذا كنت تفضل الحصول على رمز الذكاء الاصطناعي الخاص بك مع بعض الغيلان، فإن OpenAI هو الذي يفعل ذلك شارك طريقة لعكس تعليماته.



المصدر

spot_imgspot_img