يمكن لأدوات الذكاء الاصطناعي كشف الحسابات المجهولة

هل لديك حساب Reddit alt أو Secret X أو finsta أو Glassdoor الذي تسيء إلى رئيسك به؟ ربما يكون الذكاء الاصطناعي قد سهّل كثيرًا كشف القناع عنك. وهذا هو الاستنتاج أ دراسة نشرت مؤخرا، مما يشير إلى بعض العواقب غير المريحة للبقاء خاصًا عبر الإنترنت – حتى لو لم يحن الوقت المناسب لعقد جنازة لعدم الكشف عن هويته بعد.

هذه النتيجة، التي لم تتم مراجعتها من قبل النظراء، جاءت من باحثين في ETH Zurich، وAnthropic، وبرنامج Machine Learning Alignment and Theory Scholars. لقد قاموا ببناء نظام آلي لوكلاء الذكاء الاصطناعي باستخدام نماذج غير محددة – قادرة على البحث في الويب والتفاعل مع المعلومات مثل المحقق البشري – لاختبار مدى فعالية نماذج اللغة الكبيرة في إعادة تحديد المواد المجهولة المصدر. يتفوق النظام بشكل كبير على التقنيات الحسابية التقليدية لإلغاء إخفاء هوية الحسابات، والبحث في النص عن التفاصيل الشخصية على نطاق واسع.

يعمل النظام من خلال التعامل مع المنشورات أو النصوص الأخرى كمجموعة من الأدلة. فهو يحلل النص بحثًا عن أنماط – مراوغات الكتابة، وتفاصيل السيرة الذاتية الضالة، وتكرار النشر وتوقيته – التي قد تلمح إلى هوية شخص ما. ثم يقوم بعد ذلك بمسح الحسابات الأخرى، وربما الملايين منها، بحثًا عن نفس المزيج من السمات. يتم وضع علامة على التطابقات المحتملة، ومقارنتها بمزيد من التفاصيل، وغربلتها في قائمة مختصرة من الهويات المحتملة.

بدلاً من استهداف المستخدمين المطمئنين، قام الفريق بتقييم النظام باستخدام مجموعات البيانات التي تم إنشاؤها من المنشورات المتاحة للجمهور، بما في ذلك المحتوى من Hacker News وLinkedIn، ونصوص مقابلات Anthropic مع العلماء حول كيفية استخدامهم للذكاء الاصطناعي، وحسابات Reddit التي تم تقسيمها عمدًا إلى نصفين مجهولين للاختبار. تشير الورقة إلى أنه في كل إعداد، حدد النهج القائم على LLM بشكل صحيح ما يصل إلى 68 بالمائة من الحسابات المطابقة بدقة 90 بالمائة. وعلى النقيض من ذلك، فإن الأساليب المماثلة غير المتعلقة بماجستير إدارة الأعمال، مثل ربط نقاط البيانات المتناثرة عبر مجموعات البيانات الكبيرة، لم تحدد أي شيء تقريبا.

لم تكن النتائج موحدة عبر كل مجموعة بيانات، وكما هو متوقع، كان أداء النموذج أفضل عندما كان لديه معلومات أكثر تنظيماً للعمل معها. في إحدى التجارب التي فحصت مستخدمي Reddit الذين ينشرون عن الأفلام في منتديات r/movies الرئيسية ومجتمعات الأفلام الأصغر حجمًا، تمكن النظام من ربط الحسابات التي ذكرت فيلمًا واحدًا فقط في حوالي 3 بالمائة من الوقت بدقة تصل إلى 90 بالمائة. وعندما ذكر المستخدمون 10 أفلام أو أكثر، ارتفع معدل النجاح إلى النصف تقريبًا.

وفي الوقت نفسه، حددت تجربة باستخدام استطلاع أنثروبيك للعلماء تسعة من أصل 125 مشاركًا، بمعدل تذكر يبلغ حوالي 7 بالمائة. في هذا الاختبار، أنشأ النظام ملفًا شخصيًا لكل مستجيب استنادًا إلى الأدلة الموجودة في إجاباته، ثم قام بالبحث في المعلومات المتاحة للجمهور على الويب بحثًا عن التطابقات المحتملة. في أحد الأمثلة المتطابقة، سلط الباحثون الضوء على كيف أن الإشارة إلى “مشرف” يمكن أن تشير إلى طالب دكتوراه وأن استخدام اللغة الإنجليزية البريطانية يمكن أن يشير إلى الانتماء إلى المملكة المتحدة. إلى جانب الإشارات إلى الخلفية في العلوم الفيزيائية والعمل الحالي في أبحاث علم الأحياء، كان النظام قادرًا على تضييق المجال ليقتصر على مرشح معين.

ومع ذلك، يرى الباحثون أن القدرة على تحديد أي مجيب من خلال النص غير المنظم أمر جدير بالملاحظة، مما يؤدي في دقائق إلى تكرار ما قد يستغرقه المحقق البشري ساعات. علاوة على ذلك، قالوا الحافة ومن المرجح أن يتحسن هذا الأداء مع زيادة قدرة أنظمة الذكاء الاصطناعي وتمكنها من الوصول إلى مجموعات أكبر من البيانات. وعلى نطاق أوسع، يحذرون من أنه ربما لم يعد من الآمن افتراض أن النشر بأسماء مستعارة سيحمي الهويات عبر الإنترنت، في الماضي أو المستقبل.

“كل شيء وجدته LLM من حيث المبدأ يمكن العثور عليه بواسطة محقق بشري.”

وقال دانييل باليكا، الباحث في المعهد الفدرالي للتكنولوجيا في زيورخ وأحد مؤلفي الدراسة: “المعلومات المتوفرة على الإنترنت موجودة إلى الأبد”. ويحذر الباحثون من أن هذا الإصرار يمكن أن يترجم إلى مخاطر ملموسة في العالم الحقيقي للصحفيين والمعارضين والناشطين الذين يعتمدون على أسماء مستعارة، في حين يؤدي أيضًا إلى تمكين “الإعلانات شديدة الاستهداف” وعمليات الاحتيال “الشخصية للغاية”.

إن مخاطر إلغاء الكشف عن هوية الحسابات ليست جديدة، كما أنها ليست فريدة من نوعها بالنسبة للذكاء الاصطناعي. قال باليكا: “كل شيء وجدته LLM من حيث المبدأ يمكن العثور عليه بواسطة محقق بشري”. الحافة.

ويقول باليكا إن الجديد هو الأتمتة الشاملة. إن العمل الذي كان يتطلب في السابق محققًا مجتهدًا مستعدًا للتدقيق بصبر في المنشورات التي تبحث عن شذرات صغيرة من المعلومات، يمكن تنفيذه الآن بسهولة أكبر وعبر عدد أكبر بكثير من الأهداف.

إنها رخيصة أيضًا. قال الباحثون إن تجربتهم كلفت أقل من 2000 دولار، وهي تكلفة تتراوح بين 1 إلى 4 دولارات لكل ملف شخصي قاموا بتشغيل وكيل الذكاء الاصطناعي عليه. وقال سيمون ليرمان، المؤلف المشارك: “الاقتصاد مختلف تمامًا الآن”. الحافة، محذرًا من أن الحاجز الأدنى أمام الدخول يمكن أن يزيد من لديه القدرة – والحافز – لمحاولة اختراق إخفاء الهوية عبر الإنترنت. وأضاف أن المجموعات التي كانت تاريخياً “تحت الرادار” قد تجد صعوبة في الاستمرار في القيام بذلك.

“قد يسيئ الناس فهم هذا البحث المهم ويستنتجون أن الخصوصية قد ماتت”. إنه ليس كذلك.

ومن المهم عدم المبالغة في النتائج. وقال لوك روشيه، الأستاذ المشارك في معهد أكسفورد للإنترنت: “بينما تتحسن هذه الخوارزميات، فإنها تظل بعيدة كل البعد عما يمكن أن يفعله البشر”. الحافة. لا يتطابق العمل بدقة مع العالم الحقيقي؛ تم إجراء التجارب في ظل ظروف معملية باستخدام مجموعات البيانات التي تم تنسيقها بعناية وإخفاء هويتها لأغراض الاختبار. وقالوا إنهم يشعرون بالقلق من أن الناس “قد يسيئون فهم هذا البحث المهم ويستنتجون أن الخصوصية قد ماتت”. جادلوا بأن الأمر ليس كذلك.

وقال روشيه إنه على الرغم من سنوات من التقدم التدريجي في التقنيات المصممة لكشف المستخدمين المجهولين، فإن “هوية ساتوشي ناكاموتو، مخترع بيتكوين، لا تزال لغزا بعد أكثر من عقد من الزمن”. وأضافوا أنه لا يزال بإمكان المبلغين عن المخالفات التواصل مع الصحفيين دون أن يتم كشفهم، وأدوات مثل Signal “نجحت حتى الآن في حماية خصوصيتنا الجماعية”.

وفي هذه الورقة، قال الباحثون إنهم تجنبوا اختبار نظامهم على مستخدمين بأسماء مستعارة فعلية بسبب مخاوف أخلاقية. ولأسباب مماثلة، لم ينشروا التفاصيل الفنية الكاملة لنهجهم ورفضوا تقديم عرض توضيحي عندما سئلوا. ولم يذكر الفريق أيضًا ما إذا كانوا قد اختبروا النظام خارج حدود الدراسة، مستشهدين مرة أخرى بمخاوف أخلاقية، تاركين السؤال مفتوحًا حول مدى موثوقية أدائه مقابل حسابات العالم الحقيقي.

بالنسبة للأشخاص الملتزمين بشدة بعدم الكشف عن هويتهم، قد يكون التأثير العملي محدودًا. لا تزال الاحتياطات الأساسية – إبقاء الحسابات منفصلة، والحد من التفاصيل الشخصية، وتجنب الأنماط التي يمكن تحديدها مثل النشر فقط أثناء ساعات الاستيقاظ في منطقتك الزمنية – ضرورية.

بالنسبة لأولئك الذين يتعاملون مع الأسماء المستعارة بشكل أكثر عرضية، نصحت Paleka وLermen المستخدمين بالتفكير مليًا فيما يتم نشره في المنتديات العامة، حتى الحسابات التي تبدو مجهولة المصدر، وأن يضعوا في اعتبارهم أن ما هو موجود بالفعل يمكن تجميعه معًا بسهولة أكبر مما يفترضه الكثيرون.

ويقول الباحثون إن المسؤولية لا ينبغي أن تقع بالكامل على عاتق المستخدمين. وقال ليرمان إن مختبرات الذكاء الاصطناعي يجب أن تراقب كيفية استخدام أدواتها وأن تضع ضمانات لمنع استخدامها لإخفاء هوية الأشخاص. وأضاف أن منصات وسائل التواصل الاجتماعي يمكن أن تضيق الخناق على عملية استخراج البيانات واستخراجها على نطاق واسع، مما يجعل مثل هذه الجهود ممكنة.

بعبارة أخرى، ربما يكون ساتوشي في مأمن من محققي الذكاء الاصطناعي. منشور AITA الخاص بك على Reddit؟ قد تكون تلك مسألة أخرى.

متابعة المواضيع والمؤلفين من هذه القصة لرؤية المزيد من هذا القبيل في خلاصة صفحتك الرئيسية المخصصة وتلقي تحديثات البريد الإلكتروني.

روبرت هارت

المصدر

المصابيح الذكية المتوافقة مع Matter من Ikea متاحة الآن في الولايات المتحدة

تبذل “أنثروبيك” جهودًا أخيرة لإنقاذ الاتفاق مع البنتاغون بعد الانفجار

لا شيء يمكن تغطيته أخيرًا مع الهاتف المعدني Phone 4A Pro

ذات صلة

المصابيح الذكية المتوافقة مع Matter من Ikea متاحة الآن في الولايات المتحدة