يذهب جائزة تورينج إلى رواد الذكاء الاصطناعي أندرو بارتو وريتشارد سوتون
في عام 1977 ، بدأ أندرو بارتو ، كباحث في جامعة ماساتشوستس ، أمهيرست ، في استكشاف نظرية جديدة تصرفت الخلايا العصبية مثل مذهب المتعة. كانت الفكرة الأساسية هي أن الدماغ البشري كان مدفوعًا بمليارات من الخلايا العصبية التي تحاول كل منها زيادة المتعة وتقليل الألم. بعد عام ، انضم إليه باحث شاب آخر ، ريتشارد سوتون. عملوا معًا على شرح الذكاء البشري باستخدام هذا المفهوم البسيط وقاموا بتطبيقه على الذكاء الاصطناعي. وكانت النتيجة “التعلم التعزيز” ، وهي وسيلة لتتعلم أنظمة الذكاء الاصطناعى من المكافئ الرقمي للمتعة والألم. في يوم الأربعاء ، أعلنت جمعية آلات الحوسبة ، وهي أكبر جمعية للمحترفين في العالم ، أن الدكتور بارتو والدكتور سوتون قد فازوا بجائزة تورينغ هذا العام عن عملهم في التعلم التعزيز. غالبًا ما تسمى جائزة تورينج ، التي تم تقديمها في عام 1966 ، جائزة نوبل للحوسبة. سيشارك العلماء جائزة مليون دولار تأتي مع الجائزة. في العقد الماضي ، لعب التعلم التعزيز دورًا حيويًا في ظهور الذكاء الاصطناعي ، بما في ذلك تقنيات الاختراق مثل جوجل ألفا و أوبك AAIP. وقالت أورين إتيزيوني ، أستاذ فخري في علوم الكمبيوتر بجامعة واشنطن وتأسيس معهد ألين للذكاء الاصطناعي. “لقد أنشأوا الأفكار الرئيسية – وكتبوا الكتاب حول هذا الموضوع.” كتابهم ، “التعلم التعزيز: مقدمة” ، والذي تم نشره في عام 1998 ، يظل الاستكشاف النهائي لفكرة يقول العديد من الخبراء إنه بدأ فقط في إدراك إمكاناته. لقد درس علماء النفس منذ فترة طويلة الطرق التي يتعلمها البشر والحيوانات من تجاربهم. في الأربعينيات من القرن العشرين ، اقترح عالم الكمبيوتر البريطاني الرائد آلان تورينج أن الآلات يمكن أن تتعلم بنفس الطريقة. لكن الدكتور بارتو والدكتور سوتون هو الذي بدأ في استكشاف الرياضيات حول كيفية عمل ذلك ، وبناء على نظرية مفادها أن أ. هاري كلوبف ، عالم الكمبيوتر الذي يعمل في الحكومة ، قد اقترحوا. واصل الدكتور بارتو بناء مختبر في UMass Amherst مكرسًا للفكرة ، بينما أسس الدكتور سوتون نوعًا مشابهًا من المختبر في جامعة ألبرتا في كندا. “مع إحياءها ، كان الأمر يتعلق بالآلات”. ظل هذا سعيًا أكاديميًا حتى وصول Alphago في عام 2016. يعتقد معظم الخبراء أن 10 سنوات أخرى ستمر قبل أن يقوم أي شخص ببناء نظام AI الذي يمكنه التغلب على أفضل لاعب في العالم في لعبة Go. كانت الحيلة هي أن النظام قد لعب ملايين الألعاب ضد نفسه ، والتعلم عن طريق التجربة والخطأ. لقد تعلمت أي تحركات جلبت النجاح (المتعة) والتي جلبت الفشل (الألم). وكان فريق Google الذي بنى النظام يقوده ديفيد سيلفر ، وهو باحث درس التعلم التعزيز في عهد الدكتور سوتون في جامعة ألبرتا. لا يزال خبراء Many يتساءل عما إذا كان التعلم التعزيز يمكن أن يعمل خارج الألعاب. يتم تحديد أرباح اللعبة من خلال النقاط ، مما يجعل من السهل على الآلات التمييز بين النجاح والفشل. ولكن التعلم التعزيز لعب أيضًا دورًا أساسيًا في chatbots. التراجع عن إصدار ChatGPT في خريف عام 2022 ، استأجرت Openai مئات الأشخاص لاستخدام إصدار مبكر وتقديم اقتراحات دقيقة يمكن أن تعشق مهاراتها. لقد أظهروا chatbot كيفية الرد على أسئلة معينة ، وتصنيف إجاباته وتصحيح أخطائه. من خلال تحليل هذه الاقتراحات ، تعلمت ChatGpt أن تكون chatbot أفضل. الباحثون يطلقون على هذا “التعلم التعزيز من التعليقات البشرية” ، أو RLHF وهو كذلك أحد الأسباب الرئيسية يستجيب chatbots اليوم بطرق مثيرة للدهشة. (صحيفة نيويورك تايمز لديها مقاضاة Openai وشريكها ، Microsoft ، من أجل انتهاك حقوق الطبع والنشر لمحتوى الأخبار المتعلقة بأنظمة الذكاء الاصطناعي. نفت Openai و Microsoft هذه المطالبات.) مؤخرًا ، شركات مثل Openai و الناشئة الصينية ديبسيك طورت شكلاً من أشكال التعلم التعزيز الذي يسمح لدردشة الدردشة بالتعلم من أنفسهم – كما فعل ألفاغو. من خلال العمل من خلال العديد من مشاكل الرياضيات ، على سبيل المثال ، يمكن لـ chatbot معرفة الأساليب التي تؤدي إلى الإجابة الصحيحة والتي لا تفعل ذلك. إذا كرر هذه العملية بمجموعة كبيرة من المشكلات ، يمكن أن يتعلم الروبوت تحاكي الطريقة التي سببها البشر – على الأقل في بعض النواحي. والنتيجة هي ما يسمى أنظمة التفكير مثل Openai's O1 أو Deepseek's R1.Dr. يقول بارتو والدكتور سوتون إن هذه الأنظمة تلمح إلى الطرق التي ستتعلم بها الآلات في المستقبل. في النهاية ، يقولون ، إن الروبوتات المشبعة بـ AI ستتعلم من التجربة والخطأ في العالم الحقيقي ، كما يفعل البشر والحيوانات. “تعلم السيطرة على الجسم من خلال التعلم التعزيز – هذا أمر طبيعي للغاية” ، قال الدكتور بارتو. (tagstotranslate) الذكاء الاصطناعي
المصدر