“القرف المقدس”: الجوزاء 3 يفوز بسباق الذكاء الاصطناعي – في الوقت الحالي

عندما يؤدي إصدار نموذج الذكاء الاصطناعي على الفور إلى نشر الميمات والأطروحات التي تعلن أن بقية الصناعة قد تم طهيها، فأنت تعلم أن لديك شيئًا يستحق التحليل.

تم إصدار Google Gemini 3 يوم الثلاثاء وسط ضجة واسعة النطاق. الشركة مُسَمًّى النموذج “عصر جديد من الذكاء”، ودمجه في بحث Google في اليوم الأول لأول مرة. لقد تجاوزت OpenAI ومنتجات المنافسين الآخرين في مجموعة من المعايير، وتتصدر المخططات في LMArena، وهي منصة تقييم للذكاء الاصطناعي تعتمد على التعهيد الجماعي وهي في الأساس تصنيف Billboard Hot 100 لنماذج الذكاء الاصطناعي. في غضون 24 ساعة من إطلاقه، جرب أكثر من مليون مستخدم برنامج Gemini 3 في Google AI Studio وGemini API، وفقًا لشركة Google. قال لوجان كيلباتريك من Google DeepMind، وهو قائد المنتج في Google AI Studio وGemini API: “من وجهة نظر التبني من اليوم الأول، (إنه) أفضل ما رأيناه من أي من إصدارات نماذجنا”. الحافة.

حتى الرئيس التنفيذي لشركة OpenAI Sam Altman والرئيس التنفيذي لشركة xAI Elon Musk هنأوا فريق Gemini علنًا على العمل الجيد الذي قاموا به. والرئيس التنفيذي لشركة Salesforce مارك بينيوف كتب أنه بعد استخدام ChatGPT كل يوم لمدة ثلاث سنوات، فإن قضاء ساعتين على Gemini 3 غير كل شيء: “يا إلهي… لن أعود إلى الوراء. القفزة جنونية – التفكير والسرعة والصور والفيديو … كل شيء أصبح أكثر وضوحًا وأسرع. يبدو الأمر كما لو أن العالم تغير للتو، مرة أخرى.”

قال Wei-Lin Chiang، المؤسس المشارك والرئيس التنفيذي للتكنولوجيا في LMArena: “هذا أكثر من مجرد تغيير في لوحة المتصدرين”. قال شيانغ الحافة أن Gemini 3 Pro يحمل “ريادة واضحة” في الفئات المهنية بما في ذلك البرمجة والمطابقة والكتابة الإبداعية، كما أن قدراته في البرمجة الفعالة “تتفوق الآن في كثير من الحالات على أفضل نماذج البرمجة مثل Claude 4.5 وGPT-5.1.” كما حصل أيضًا على المركز الأول في الفهم البصري وكان النموذج الأول الذي تجاوز درجة 1500 تقريبًا على لوحة المتصدرين النصية للنظام الأساسي.

وقال شيانج إن أداء النموذج الجديد “يوضح أن سباق التسلح في الذكاء الاصطناعي يتشكل من خلال نماذج يمكنها التفكير بشكل أكثر تجريدًا، والتعميم بشكل أكثر اتساقًا، وتقديم نتائج يمكن الاعتماد عليها عبر مجموعة متنوعة بشكل متزايد من تقييمات العالم الحقيقي”.

قال أليكس كونواي، مهندس البرمجيات الرئيسي في DataRobot: الحافة أن أحد أبرز التطورات في Gemini 3 كان يتعلق بمعيار تفكير محدد يسمى ARC-AGI-2. وقال إن Gemini سجل ما يقرب من ضعف ما حققه برنامج GPT-5 Pro من OpenAI أثناء تشغيله بعُشر التكلفة لكل مهمة، وهو ما “يتحدى حقًا فكرة أن هذه النماذج في حالة استقرار”. وفي معيار SimpleQA – الذي يتضمن أسئلة وإجابات بسيطة حول مجموعة واسعة من المواضيع، ويتطلب الكثير من المعرفة المتخصصة – سجل Gemini 3 Pro أكثر من ضعف ما حققه OpenAI’s GPT-5.1، كما أشار كونواي. وقال: “استخدم الحالة الحكيمة، سيكون رائعًا بالنسبة للكثير من الموضوعات المتخصصة والتعمق في أحدث الأبحاث والمجالات العلمية”.

لكن المتصدرين ليست كل شيء. من الممكن – وفي عالم الذكاء الاصطناعي عالي الضغط، من المغري – تدريب نموذج لمعايير ضيقة بدلاً من النجاح للأغراض العامة. لذا، لمعرفة مدى جودة أداء النظام، عليك الاعتماد على اختبارات العالم الحقيقي، والخبرة السردية، وحالات الاستخدام المعقدة في الواقع.

الحافة تحدثت مع محترفين في مختلف التخصصات يستخدمون الذكاء الاصطناعي يوميًا في العمل. الإجماع: يبدو Gemini 3 مثيرًا للإعجاب، ويقوم بعمل رائع في نطاق واسع من المهام – ولكن عندما يتعلق الأمر بالحالات المتطورة والجوانب المتخصصة في بعض الصناعات، فإن العديد من المحترفين لن يستبدلوا نماذجهم الحالية بها في أي وقت قريب.

غالبية الناس الحافة تحدثوا مع خطة لمواصلة استخدام Anthropic’s Claude لتلبية احتياجاتهم البرمجية، على الرغم من التقدم الذي حققته Gemini 3 في هذا المجال. قال البعض أيضًا أن Gemini 3 ليس الأمثل على صعيد تفاعل المستخدم. قال تيم ديتميرز، الأستاذ المساعد في جامعة كارنيجي ميلون وعالم الأبحاث في Ai2، إنه على الرغم من كونه “نموذجًا رائعًا”، إلا أنه غير متقن بعض الشيء عندما يتعلق الأمر بتجربة المستخدم، مما يعني أنه “لا يتبع التعليمات بدقة”.

قال تولسي دوشي، المدير الأول لإدارة المنتجات في Google DeepMind لشركة Gemini وGen Media الحافة أن الشركة أعطت الأولوية لجلب Gemini 3 إلى مجموعة متنوعة من منتجات Google “بطريقة حقيقية جدًا”. وعندما سُئلت عن المخاوف المتعلقة باتباع التعليمات، قالت إنه من المفيد معرفة “أين يصل الأشخاص إلى بعض النقاط الشائكة”.

وقالت أيضًا إنه نظرًا لأن الطراز Pro هو الإصدار الأول في مجموعة Gemini 3، فإن النماذج اللاحقة ستساعد في “التغلب على هذا القلق”.

قال جويل هرون، الرئيس التنفيذي للتكنولوجيا في Thomson Reuters، إن الشركة لديها معايير داخلية خاصة بها تم تطويرها لتصنيف كل من نماذجها الداخلية والنماذج العامة في المجالات الأكثر صلة بعملهم – مثل مقارنة مستندين يصل طولهما إلى عدة مئات من الصفحات، وتفسير مستند طويل، وفهم العقود القانونية، والتفكير في المجالات القانونية والضريبية. وقال إنه حتى الآن، كان أداء Gemini 3 قويًا في جميع هذه الإصدارات وهو “قفزة كبيرة مقارنة بما كان عليه Gemini 2.5.” كما أنها تتفوق حاليًا على العديد من نماذج Anthropic وOpenAI في بعض تلك المجالات.

قال لويس بلانكيميير، المؤسس المشارك والرئيس التنفيذي لشركة Cognita، وهي شركة ناشئة تعمل في مجال الذكاء الاصطناعي للأشعة، إنه من حيث “الأرقام النقية”، فإن Gemini 3 “مثير للغاية”. لكنه قال: “ما زلنا بحاجة إلى بعض الوقت لمعرفة مدى فائدة هذا النموذج في العالم الحقيقي”. بالنسبة للمجالات الأكثر عمومية، قال بلانكمير، إن الجوزاء 3 هو نجم، ولكن عندما تلاعب به في مجال الأشعة، وجد صعوبة في تحديد كسور الأضلاع الدقيقة بشكل صحيح على الأشعة السينية للصدر، بالإضافة إلى الحالات غير الشائعة أو النادرة. وهو يسمي الأشعة بأنها شبيهة بالسيارات ذاتية القيادة في العديد من النواحي، مع الكثير من الحالات المتطورة – لذلك قد لا يكون النموذج الأحدث والأكثر قوة فعالاً مثل النموذج الأقدم الذي تم تنقيحه وتدريبه على البيانات المخصصة مع مرور الوقت. وقال: “إن العالم الحقيقي أصعب بكثير”.

وبالمثل، يرى مات هوفمان، رئيس قسم الذكاء الاصطناعي في شركة Longeye، وهي شركة توفر أدوات الذكاء الاصطناعي لتحقيقات إنفاذ القانون، واعدًا في مولد الصور Nano Banana Pro الذي يعمل بنظام Gemini 3 Pro. تسمح مولدات الصور لشركة Longeye بإنشاء مجموعات بيانات تركيبية مقنعة للاختبار، مما يسمح لها بالحفاظ على أمان بيانات التحقيق الحقيقية والحساسة. ولكن على الرغم من أن المعايير مثيرة للإعجاب، إلا أنها قد لا تتوافق مع حالات الاستخدام الفعلية للشركة. وقال: “لست واثقًا من أن Longeye يمكنها استبدال النموذج الذي نستخدمه في الإنتاج بـ Gemini 3 ورؤية تحسينات فورية”.

وتقول شركات أخرى أيضًا إنها متحمسة بشأن مشروع Gemini، ولكن ليس بالضرورة استخدامه ليحل محل كل شيء آخر. تستخدم شركة Build، وهي شركة ناشئة لإقراض البناء، حاليًا مزيجًا من النماذج التأسيسية من Google وAnthropic وOpenAI وغيرها لتحليل طلبات سحب البناء – وهي حزمة من المستندات غالبًا ما يتم إرسالها إلى مقرض البناء، مثل الفواتير وإثبات العمل المنجز، والتي تطلب دفع الأموال. وهذا يتطلب تحليلاً متعدد الوسائط للنصوص والصور، بالإضافة إلى نافذة سياقية كبيرة للوكيل الرئيسي الذي يفوض المهام للآخرين، كما قال نائب الرئيس للهندسة توماس شليغل. الحافة. وهذا جزء مما وعدت به Google مع Gemini 3، لذا تستكشف الشركة حاليًا إمكانية تبديله إلى 2.5.

قال شليغل: “في الماضي، وجدنا الجوزاء هو الأفضل في المهام متعددة الأغراض، ويبدو أن الرقم 3 يمثل خطوة كبيرة إلى الأمام على نفس المنوال”. “إنه كل ما نحبه في الجوزاء على المنشطات.” لكنه لا يعتقد حتى الآن أنه سيحل محل جميع النماذج الأخرى، بما في ذلك Claude لمهام البرمجة ومنتجات OpenAI للاستدلال التجاري.

بالنسبة لتانماي جوبال، المؤسس المشارك والرئيس التنفيذي لمنصة وكيل الذكاء الاصطناعي PromptQL، فإن الضجة التي أحدثتها Gemini 3 صحيحة، لكنها “بالتأكيد ليست نهاية أي شيء” بالنسبة لمنافسي Google. أصبحت نماذج الذكاء الاصطناعي أفضل وأرخص، وبما أنها في دورات إطلاق سريعة، “فإن المرء دائمًا ما يكون متقدمًا على المجموعة لفترة من الوقت.” (على سبيل المثال، في اليوم التالي لإصدار Gemini 3، OpenAI مطلق سراحه GPT-5.1-Codex-Max، تحديث لنموذج عمره أسبوع، ظاهريًا لتحدي Gemini 3 في بعض معايير الترميز.)

وقال جوبال إن PromptQL لا تزال تعمل على التقييمات الداخلية لتحديد كيفية تغيير خيارات الفريق النموذجية، إن وجدت، ولكن “النتائج الأولية لا تظهر بالضرورة شيئًا أفضل بشكل كبير” من التشكيلة الحالية. قال إن تفضيله الحالي هو Claude لتوليد الأكواد، وChatGPT لبحث الويب، وGPT-5 Pro لـ “العصف الذهني العميق”، لكنه قد يدمج Gemini 3 كنموذج افتراضي، لأنه “ربما يكون الأفضل في فئته لمهام المستهلك عبر الإبداع والنص و(و) الصورة.”

ومثل كل النماذج تقريبًا، مرت Gemini 3 بلحظات سأطلق عليها اسم “متلازمة اليد الروبوتية” – عندما يقوم نظام الذكاء الاصطناعي بشيء معقد بألوان متطايرة ولكنه يندهش من أبسط الاستعلام، على غرار الأيدي الآلية في الأمس التي تواجه صعوبة في الإمساك بعلبة الصودا. الباحث الشهير أندريه كارباثي، الذي كان عضوًا مؤسسًا في OpenAI والمدير السابق للذكاء الاصطناعي في Tesla، كتب على X بعد اختبار Gemini 3 أنه “كان لديه انطباع مبكر إيجابي بالأمس فيما يتعلق بالشخصية، والكتابة، والبرمجة الحيوية، والفكاهة، وما إلى ذلك، وإمكانات قوية جدًا للقيادة اليومية، ومن الواضح أنه من المستوى 1 LLM،” لكنه أشار إلى أن النموذج رفض تصديقه عندما قال إننا في عام 2025، قال لاحقًا إنها نسيت تشغيل بحث Google. (تأكد من أنه في الاختبارات المبكرة، ربما تم إعطاؤه نموذجًا به نظام مطالبة قديم).

في الحافةتجربة الخاصة اختبار الجوزاء 3، وجدنا أنه “يقدم أداءً جيدًا إلى حد معقول – مع وجود بعض التحذيرات”. من المحتمل ألا يبقى في القمة إلى الأبد، لكنه يمثل خطوة واضحة للشركة.

قال هرون: “أنت نوعًا ما في لعبة القفز هذه من نموذج إلى آخر، من شهر لآخر، عندما يسقط نموذج جديد”. “لكن ما علق في ذهني بشأن إصدار Google هو أنه يقدم تحسينات جوهرية عبر العديد من أبعاد النماذج – لذلك لا يبدو الأمر كما لو أنها تحسنت في البرمجة أو أنها أصبحت أفضل في التفكير … لقد أصبحت حقًا أفضل قليلاً في جميع المجالات.”

متابعة المواضيع والمؤلفين من هذه القصة لرؤية المزيد من هذا القبيل في خلاصة صفحتك الرئيسية المخصصة وتلقي تحديثات البريد الإلكتروني.

هايدن فيلد

المصدر

ننسى براعم النوم باهظة الثمن. اشتري هذه الوسادة بدلاً من ذلك

اشترت Midjourney تطبيق علم التنجيم Co-Star

لا يمكنك تجاهل Google Zero بعد الآن

ذات صلة

ننسى براعم النوم باهظة الثمن. اشتري هذه الوسادة بدلاً من ذلك

اشترت Midjourney تطبيق علم التنجيم Co-Star

لا يمكنك تجاهل Google Zero بعد الآن

جمع

ننسى براعم النوم باهظة الثمن. اشتري هذه الوسادة بدلاً من ذلك

اشترت Midjourney تطبيق علم التنجيم Co-Star

لا يمكنك تجاهل Google Zero بعد الآن

تعمل Meta على جعل برنامج الدردشة الآلي الخاص بها يشبه المساعد

إصدارات Anthropic Opus 5 واعدة بقدرات تشبه Fable 5

“القرف المقدس”: الجوزاء 3 يفوز بسباق الذكاء الاصطناعي – في الوقت الحالي

شركة

الأكثر شهرة

ننسى براعم النوم باهظة الثمن. اشتري هذه الوسادة بدلاً من ذلك

اشترت Midjourney تطبيق علم التنجيم Co-Star

لا يمكنك تجاهل Google Zero بعد الآن

أحدث المقالات

ننسى براعم النوم باهظة الثمن. اشتري هذه الوسادة بدلاً من ذلك

اشترت Midjourney تطبيق علم التنجيم Co-Star

لا يمكنك تجاهل Google Zero بعد الآن