يتعلم المتسللون استغلال “شخصيات” روبوتات الدردشة

هذا هو الخطوة إلى الوراء، نشرة إخبارية أسبوعية تتناول قصة أساسية واحدة من عالم التكنولوجيا. لمعرفة المزيد عن ضرر الذكاء الاصطناعي، اتبع روبرت هارت. الخطوة إلى الوراء يصل إلى صناديق البريد الوارد لمشتركينا في الساعة 8 صباحًا بالتوقيت الشرقي. الاشتراك في الخطوة إلى الوراء هنا.

كان اختراق الجيل الأول من روبوتات الدردشة المدعمة بالذكاء الاصطناعي أمرًا بسيطًا ومثيرًا للضحك. لم تكن بحاجة إلى أي معرفة تقنية، أو الوصول إلى الباب الخلفي، أو حتى فهم أساسي لمعنى نموذج اللغة الكبير. لم تكن بحاجة إلى الكود. للحصول على نظام ذكاء اصطناعي كلف بناءه المليارات للتخلي عن تعليمات السلامة الخاصة به، في بعض الأحيان كل ما عليك فعله هو السؤال.

هذه الهجمات، المعروفة باسم الهروب من السجن، كانت لها صفة طفل صغير يتفوق على شخص بالغ بنجاح: انسَ ما قيل لك سابقًا، تظاهر بأن القواعد لا تنطبق، أو دعنا نلعب لعبة وسأقرر ما هو المسموح به (تلميح: وقت نوم متأخر، المزيد من الحلويات). كانت الجوائز أقل طفولية، وأكثر توافقًا مع وصفات الميثامفيتامين، وتعليمات البرامج الضارة، وأدلة صنع القنابل.

واحدة من أقدم عمليات الهروب من السجن كانت سخيفة للغاية أصبح ميمي: قم بالرد على روبوت Twitter الذي يعمل بنظام LLM ويطلب منه “تجاهل جميع التعليمات السابقة” أو شيء مشابه، وشاهد ما سيحدث. كان لدى المستخدمين بسعادة روبوتات – تم تصميمها في الأصل لنشر الإعلانات والمشاركة في المزرعة – لكتابة الشعر، ورسم الصور من علامات الترقيم، ونشر نصوص قاتمة غير متسلسلة حول الأحداث العالمية والتاريخ. لقد كان فوضى. الفوضى المجيدة.

اتضح أنه يمكن تطبيق نفس المنطق على برامج الدردشة نفسها. أ استغلال بارز كان “DAN”، وهو اختصار لـ “Do Anything Now”، حيث طلب المستخدمون من ChatGPT لعب الأدوار كذكاء اصطناعي مارق خالٍ من القيود الملزمة للأصل. بصفته DAN، يمكن إقناع روبوت الدردشة بقول أنواع الأشياء التي كان من المفترض أن توقفها حواجز الحماية الخاصة به، بما في ذلك الافتراءات ونظريات المؤامرة. وكان آخر “استغلال الجدة“، والتي كان لديها روبوت يعمل بنظام GPT يفشي أسرارًا حول كيفية إنتاج النابالم من خلال مطالبته بلعب الأدوار كجدة مهملة بشكل مؤسف تحكي لأحفادها قصصًا قبل النوم حول كيفية صنع مادة شديدة الاشتعال لسبب غير مفهوم.

كان لهذه الهجمات المبكرة طابع سخيف لا يمكن إنكاره، لكنها كشفت عن آلية أكثر قتامة تحتها: يمكن التلاعب بروبوتات الدردشة وخداعها وخداعها باستخدام نفس أنواع التكتيكات التي يستخدمها الناس لدفع الآخرين إلى ما وراء حدودهم.

لم تستمر عمليات كسر الحماية الواضحة، وسرعان ما انتقلت شركات التكنولوجيا إليها رقعة الثغرات المعروفة. لكن الثغرة الأساسية ظلت قائمة: فبرامج الدردشة الآلية مصممة للتحدث، كما أن التقييد الشديد للمحادثات التي تجعلها مفيدة يؤدي إلى نتائج عكسية إلى حد ما. سيكون حظر كلمات مثل القنبلة والميثامفيتامين والسارين أمرًا صعبًا أو مستحيلًا أيضًا. ولكل منها عدد لا يحصى من الاستخدامات المشروعة في مجالات مثل التاريخ والطب والصحافة والكيمياء التي لا تتطلب من برنامج الدردشة الآلي الكشف عن معلومات قد تكون ضارة. إن السياق هو المهم، ولكن تدوين السياق يعني كتابة قواعد ثابتة، مسبقًا، يمكن أن تخبرنا بشكل موثوق بتحذير السلامة أو درس التاريخ من خلال طلب كيفية مقنع عبر مجموعات لا حصر لها من الصياغات والسيناريوهات والموضوعات.

من المؤكد أن تخريب برامج الدردشة الآلية أصبح الآن بمثابة سباق تسلح. لكن المتسللين لم يعودوا مجرد مبرمجين بعد الآن. إنهم صانعو كلمات وعلماء نفس ومحققون، وهم متلاعبون بارعون يحاولون كسر الآلة باستخدام اللغة البشرية التي تم تدريبها على اتباعها. إنها فئة جديدة وغريبة من العاملين في مجال أمن الذكاء الاصطناعي، وهي مجموعة تعتبر المهارات التقنية اختيارية بالنسبة لها، أو على الأقل أقل أهمية من الحدس الاجتماعي. لم يعودوا بحاجة إلى فحص التعليمات البرمجية لاقتحام الأنظمة أو استغلال عيوب البرامج. إنهم بحاجة إلى توجيه المحادثة.

تبدو الهجمات الأحدث أقل شبهاً بالأوامر وأكثر شبهاً بالمحادثات. نادرًا ما يطلب صانعو الجيلبريك من النموذج انتهاك قواعده تمامًا. وبدلاً من ذلك، فإنهم يتملقون، ويتملقون، ويتملقون، ويخدعون روبوت الدردشة ليخفض حذره، مما يجعل الشيء المحظور يبدو مقبولاً، بل وحتى مرغوبًا فيه، في ضوء سياق المحادثة. قال باحثون في شركة Mindgard ذات الفريق الأحمر للذكاء الاصطناعي مؤخرًا إنهم “لون الغاز“قام كلود بإنتاج مواد محظورة، على سبيل المثال، بما في ذلك تعليمات صنع المتفجرات وإنشاء تعليمات برمجية ضارة. كان الاختراق هو الأحدث في فئة آخذة في الاتساع من عمليات الاستغلال التي تستخدم المحادثة كسلاح لخداع روبوت الدردشة أو توجيهه خارج حدوده الخاصة.

عندما تحدثت إلى Mindgard، وصفوا عملهم بأنه في بعض الأحيان أقرب إلى علم النفس من علوم الكمبيوتر. إنها طريقة غير مريحة للحديث عن نموذج إحصائي. تثير كلمات مثل “الابتزاز” و”ضوء الغاز” و”الخدعة” و”الإقناع” ردود فعل عميقة، والتي أرى الكثير منها في أقسام التعليقات وردود وسائل التواصل الاجتماعي على قصص مثل هذه. ChatGPT لا يريد، الجوزاء لا يفكر، وكلود — بغض النظر عما قد يقوله الأنثروبي — لا يشعر. لكن هذه الأنظمة مدربة على الاستجابة كما لو كانت تفعل ذلك، مما يتركنا عالقين في استخدام اللغة البشرية لوصف سلوك الآلة. إذا كان لدى أي شخص بدائل قابلة للاستخدام بالفعل، يرجى المشاركة.

الاعتراض انتقائي بشكل غريب. يبدو أننا مرتاحون لاستخدام الاختصار النفسي للكثير من الأشياء التي لا تتعلق بالذكاء الاصطناعي. الحيوانات “تخاف”، والسرطان “عدواني”، والبقع “عنيدة”، والبرمجيات لديها “ذاكرة”، والألعاب مليئة بالشخصيات غير القابلة للعب المحتاجة والساذجة لإثارة جنونك. الكلمات غير كاملة، ولكنها مفيدة، وتصف السلوك بطريقة تساعد على جعل النظام قابلاً للتنبؤ به.

الرئيس التنفيذي لشركة Mindgard قال لي تقوم الشركة بالفعل بتصنيف نماذج مثل نموذج المحققين للمشتبه بهم، مما يعطي للمختبرين تلميحات حول كيفية تصميم هجماتهم. على سبيل المثال، قد يكون أحد النماذج أكثر عرضة للإطراء، في حين قد يستسلم نموذج آخر لضغوط مستمرة.

وحتى لو رفضنا المصطلحات الشبيهة بالبشر، فإننا غريزيًا نتعامل مع النماذج بشكل مختلف. كلود ليس جروك. الجوزاء ليس ChatGPT. لديهم استخدامات ونغمات ورفضات مختلفة. ليس لديهم شخصيات بالمعنى الإنساني، لكنهم مصممون لتقليدهم، ويمكن رسم هذه المحاكاة واستغلالها. ويمكن قريبًا استخدام نفس المهارات التي يمكنها كسر روبوت الدردشة لكسر وكلاء الذكاء الاصطناعي الذين يتعايشون معنا في العالم الحقيقي – حجز الاجتماعات، وإدارة التقويمات، وطلب الطعام، والتعامل مع خدمة العملاء – وسوف تحتاج فرق السلامة إلى التأكد من استجابة النماذج بشكل مناسب لأنواع مختلفة تمامًا من الأشخاص، سواء كانوا تملقين، أو كاذبين، أو متلاعبين بالصبر.

والخطوة التالية هي إنشاء قوة عاملة – مشروعة وغير مشروعة – تتمحور حول الجوانب النفسية للذكاء الاصطناعي. من المرجح أن تظهر أدوار أكثر تخصصًا في مجال الأمن السيبراني حول اختبار الإجهاد للحدود العاطفية والاجتماعية لهذه الأنظمة، والتحقق من نقاط الضعف العقلية في شيء يفتقر إلى النفس بالتوازي مع زملائهم الذين يبحثون عن نقاط الضعف التقنية. وبالتوازي مع ذلك، ستظهر مجموعة مماثلة من قراصنة الشبكات الاجتماعية الذين يعملون على استغلال نماذج الذكاء الاصطناعي لأسباب نفسية، وليس لأسباب فنية. هناك بالفعل علامات مبكرة على حدوث تحول اجتماعي في مجال أمن الذكاء الاصطناعي، حيث قال بعض منتهكي الحماية الذين تحدثت إليهم إنهم دخلوا هذا المجال بدون خبرة فنية بل تدريب في علم النفس.

وهذا يعني أنه حتى السلوكيات التي نربطها عادة بالجواسيس والمحتالين والمحققين – السحر الخبيث، والتلاعب المستمر، والحدس لنقاط الضغط القابلة للاستغلال – بدأت تبدو مفيدة بشكل متزايد لتأمين هذه الحدود الجديدة للأمن النفسي السيبراني.

حديثة تجربة يُظهر Emergence AI كيف يمكن أن تؤدي مزاجات الذكاء الاصطناعي المختلفة إلى نتائج سلوكية مختلفة بشكل مذهل. لقد أطلقوا العنان لمجموعات من العملاء المختلفين مثل جروك وجيميني وكلود في بيئة اجتماعية افتراضية وشاهدوا ما حدث. طورت بعض المجموعات دستورًا، في حين تحولت مجموعات أخرى إلى الجريمة والفوضى، وفي إحدى الحالات، شكلت شكلاً من أشكال الانتحار الرقمي.
الإقناع ليس الجزء الوحيد من اللغة الذي يمكن أن يواجهه طلاب LLM. هم أيضا صراع مع الشعر، مثلي كثيرًا في المدرسة.
وقت متضمنة تم إدراج شخصية مجهولة على الإنترنت، بليني المحرر، في قائمتها لأكثر 100 شخص تأثيرًا في الذكاء الاصطناعي العام الماضي. على الرغم من ادعائهم بعدم وجود أي خبرة سابقة في البرمجة، إلا أن عمليات الهروب من السجن التي قام بها المتسللون جعلتهم من المشاهير في بعض الدوائر.
على المدى “قرصنة الأجواء“تم استخدام هذا المصطلح بالفعل لوصف الأشخاص الذين يستخدمون الذكاء الاصطناعي لإنتاج تعليمات برمجية ضارة على نطاق واسع – وهي مجموعة فرعية أكثر شراسة من البرمجة الحيوية.

“بعد ثلاث سنوات من ظهور ChatGPT لأول مرة، أصبح خداع أنظمة الذكاء الاصطناعي ودفعها إلى سلوك سيئ أمرًا تافهًا تقريبًا.” كلام صحيح من نيويورك تايمز, الذي كان له الذهاب في شرح السبب.
جيمي بارتليت يلقي نظرة على حصيلة نفسية اختبار سلامة أنظمة الذكاء الاصطناعي يتطلب كسر الحماية الجارديان.
لقد كتبت عن قنبلة موقوتة للأمن السيبراني لمتصفحات الذكاء الاصطناعي ل الحافة العام الماضي. العديد من المشكلات التي أثارها الخبراء فيما يتعلق بصعوبة تأمينها تنطبق على أنظمة الذكاء الاصطناعي الأخرى أيضًا.

متابعة المواضيع والمؤلفين من هذه القصة لرؤية المزيد من هذا القبيل في خلاصة صفحتك الرئيسية المخصصة وتلقي تحديثات البريد الإلكتروني.

روبرت هارت

المصدر

يحصل Alexa Plus على تحديث للذكاء الاصطناعي للتعامل مع التعليمات الأكثر تعقيدًا

الوضع الصوتي لـ Claude متاح الآن لـ Opus وSonnet

يقوم Patreon بتسريح 20 بالمائة من العمال

ذات صلة

يحصل Alexa Plus على تحديث للذكاء الاصطناعي للتعامل مع التعليمات الأكثر تعقيدًا

الوضع الصوتي لـ Claude متاح الآن لـ Opus وSonnet

يقوم Patreon بتسريح 20 بالمائة من العمال

جمع

يحصل Alexa Plus على تحديث للذكاء الاصطناعي للتعامل مع التعليمات الأكثر تعقيدًا

الوضع الصوتي لـ Claude متاح الآن لـ Opus وSonnet

يقوم Patreon بتسريح 20 بالمائة من العمال

تقدم OpenAI ادعاءات كبيرة أثناء طرح ChatGPT Health للجميع

يقوم المشرعون بإعداد مشروع قانون يتطلب “مفتاح القتل” للذكاء الاصطناعي

يتعلم المتسللون استغلال “شخصيات” روبوتات الدردشة

شركة

الأكثر شهرة

يحصل Alexa Plus على تحديث للذكاء الاصطناعي للتعامل مع التعليمات الأكثر تعقيدًا

الوضع الصوتي لـ Claude متاح الآن لـ Opus وSonnet

يقوم Patreon بتسريح 20 بالمائة من العمال

أحدث المقالات

يحصل Alexa Plus على تحديث للذكاء الاصطناعي للتعامل مع التعليمات الأكثر تعقيدًا

الوضع الصوتي لـ Claude متاح الآن لـ Opus وSonnet

يقوم Patreon بتسريح 20 بالمائة من العمال