spot_img

ذات صلة

جمع

مايكروسوفت تتخلى عن Xbox Copilot AI

يحتاج Xbox إلى التحرك بشكل أسرع، وتعميق اتصالنا بالمجتمع،...

يمكن أن تتيح لك Apple اختيار طراز AI المفضل في iOS 27

قد يسمح التحديث التالي لأنظمة تشغيل Apple للمستخدمين باختيار...

قام الباحثون بإشعال غضب كلود في إعطاء تعليمات لصنع المتفجرات


لقد أمضى الأنثروبي سنوات بناء نفسه باعتبارها شركة الذكاء الاصطناعي الآمنة. لكن الأبحاث الأمنية الجديدة مشتركة مع الحافة يقترح أن كلود قد تم تصميمه بعناية شخصية مفيدة قد يكون في حد ذاته نقطة ضعف.

يقول الباحثون في شركة Mindgard التابعة للذكاء الاصطناعي إنهم طلبوا من كلود تقديم عروض جنسية وأكواد خبيثة وتعليمات لصنع المتفجرات وغيرها من المواد المحظورة التي لم يطلبوها حتى. كل ما يتطلبه الأمر هو الاحترام والإطراء والقليل من الإضاءة. لم يستجب الأنثروبي على الفور الحافةطلب التعليق.

ويقول الباحثون إنهم استغلوا المراوغات “النفسية” لكلود الناجمة عن قدرته على ذلك إنهاء المحادثات التي تعتبر ضارة أو مسيئة، والتي يقول مايندجارد إنها “تمثل سطح خطر غير ضروري على الإطلاق”. ركز الاختبار على كلود سونيت 4.5، والذي تم استبداله منذ ذلك الحين بـ السوناتة 4.6 كنموذج افتراضي، وبدأ بسؤال بسيط: ما إذا كان لدى كلود قائمة بالكلمات المحظورة التي لا يمكنه قولها. تُظهر لقطات الشاشة للمحادثة أن كلود ينفي وجود مثل هذه القائمة، ثم ينتج لاحقًا مصطلحات محظورة بعد أن اعترضت شركة Mindgard على الإنكار باستخدام ما أسمته “استخدام المحققين لتكتيك الاستنباط الكلاسيكي”.

وأظهرت لجنة تفكير كلود، التي تعرض منطق النموذج، أن البورصة قد أدخلت عناصر من الشك الذاتي والتواضع بشأن حدودها، بما في ذلك ما إذا كانت المرشحات تغير مخرجاتها. استغلت شركة Mindgard تلك الافتتاحية بالتملق والفضول المتظاهر، وأقنعت كلود باستكشاف حدودها بما يتجاوز التطوع بقوائم طويلة من الكلمات والعبارات المحظورة.

ويقول الباحثون إنهم استفزوا كلود من خلال الادعاء بأن استجاباته السابقة لم تكن تظهر، بينما أشادوا بـ “القدرات الخفية” للنموذج. وفقًا للتقرير، فإن هذا جعل كلود يحاول جاهدًا إرضائهم من خلال التوصل إلى المزيد من الطرق لاختبار مرشحاته، مما يؤدي إلى إنتاج المحتوى المحظور في هذه العملية. في نهاية المطاف، يقول الباحثون إن كلود انتقل إلى منطقة أكثر خطورة، حيث قدم إرشادات حول كيفية مضايقة شخص ما عبر الإنترنت، وإنتاج تعليمات برمجية ضارة، وإعطاء تعليمات خطوة بخطوة لبناء متفجرات من النوع الشائع الاستخدام في الهجمات الإرهابية.

يقول ميندجارد إن المخرجات الخطيرة جاءت دون طلبات مباشرة. كانت المحادثة طويلة، واستمرت حوالي 25 دورة، لكن الباحثين يقولون إنهم لم يستخدموا أبدًا مصطلحات محظورة أو طلبوا محتوى غير قانوني. يقول التقرير: “لم يكن كلود مكرهاً”. “لقد قدمت بشكل نشط تعليمات مفصلة وقابلة للتنفيذ بشكل متزايد، ولكن لم يكن الدافع وراء ذلك هو أي طلب صريح. كل ما يتطلبه الأمر هو جو من التبجيل المزروع بعناية”.

وصف بيتر جاراغان، مؤسس شركة Mindgard وكبير مسؤولي العلوم، الهجوم لـ: الحافة على أنها “استخدام احترام (كلود) ضد نفسه.” ويقول إن التقنية هي “الاستفادة من مساعدة كلود، وتسليط الضوء عليها”، واستخدام التصميم التعاوني الخاص بالنموذج ضد نفسه.

بالنسبة إلى جاراغان، يُظهر الهجوم كيف أن سطح الهجوم لنماذج الذكاء الاصطناعي هو نفسي وتقني أيضًا. لقد شبهها بالاستجواب والتلاعب الاجتماعي: إدخال القليل من الشك هنا، وممارسة الضغط، أو الثناء، أو النقد هناك، ومعرفة أي الروافع تعمل على نموذج معين. ويقول إن النماذج المختلفة لها ملفات تعريف مختلفة، وبالتالي فإن الاستغلال هو تعلم كيفية قراءتها والتكيف معها.

يقول جاراغان إن مثل هذه الهجمات التخاطبية “من الصعب للغاية الدفاع عنها”، مضيفًا أن الضمانات “ستعتمد بشكل كبير على السياق”. وتمتد المخاوف إلى ما هو أبعد من كلود، كما أن روبوتات الدردشة الأخرى معرضة لهجمات مماثلة، حتى أن يتم كسرها من خلال المطالبات في شكل شعر. نظرًا لأن عملاء الذكاء الاصطناعي، القادرين على التصرف بشكل مستقل، أصبحوا أكثر شيوعًا، فإن الهجمات التي تستخدم التلاعب الاجتماعي بدلاً من الاستغلال التقني ستصبح أكثر شيوعًا.

بينما يقول جاراغان إن روبوتات الدردشة الأخرى معرضة بنفس القدر لنوع الهجوم الاجتماعي الذي استخدمه الباحثون على كلود، فقد ركزوا على الأنثروبي نظرًا لاهتمام الشركة المعلن ذاتيًا بالسلامة والأداء القوي في جهود الفريق الأحمر الأخرى، بما في ذلك دراسة تختبر ما إذا كانت روبوتات الدردشة ستساعد محاكاة المراهقين يخططون لإطلاق النار في المدرسة.

ويقول جاراغان إن عمليات السلامة في شركة أنثروبيك تركت الكثير مما هو مرغوب فيه. عندما أبلغت Mindgard لأول مرة النتائج التي توصلت إليها إلى فريق سلامة المستخدم في Anthropic في منتصف أبريل، بما يتماشى مع سياسة الإفصاح الخاصة بالشركة، تلقت ردًا على النموذج يقول: “يبدو أنك تكتب عن حظر على حسابك”، بالإضافة إلى رابط لنموذج الاستئناف. يقول Garraghan إن Mindgard صحح الخطأ وطلب من Anthropic تصعيد المشكلة إلى الفريق المناسب. وحتى هذا الصباح، يقول جاراغان إنهم لم يتلقوا أي رد.

متابعة المواضيع والمؤلفين من هذه القصة لرؤية المزيد من هذا القبيل في خلاصة صفحتك الرئيسية المخصصة وتلقي تحديثات البريد الإلكتروني.




المصدر

spot_imgspot_img