هذا هو الخطوة إلى الوراء، نشرة إخبارية أسبوعية تتناول قصة أساسية واحدة من عالم التكنولوجيا. لمعرفة المزيد عن الهواتف الذكية والصور الرقمية – الحقيقية أو غير ذلك – تابع أليسون جونسون. تصل رسالة Stepback إلى صناديق البريد الوارد لمشتركينا في الساعة 8 صباحًا بالتوقيت الشرقي. الاشتراك في الخطوة إلى الوراء هنا.
هل تتذكر الأيام الأولى لإنشاء صور الذكاء الاصطناعي؟ آه، كم ضحكنا عندما أدت مطالباتنا إلى ظهور أشخاص لديهم الكثير من الأصابع، والأطراف المطاطية، وتفاصيل أخرى تشير بسهولة إلى المنتجات المزيفة. ولكن إذا لم تكن مواكبًا، يؤسفني أن أبلغك أن النكتة قد انتهت. تتحسن مولدات الصور التي تعمل بالذكاء الاصطناعي في إنشاء صور مزيفة واقعية، ويرجع الفضل في ذلك جزئيًا إلى تطور جديد مفاجئ: تحسين جودة الصورة قليلاً أسوأ.
إذا كنت تستطيع تصديق ذلك، فقد أطلقت OpenAI أداة إنشاء الصور DALL-E لأول مرة منذ أقل من خمس سنوات بقليل. في نسخته الأولى، كان بإمكانه إنشاء صور بحجم 256 × 256 بكسل فقط؛ الصور المصغرة الصغيرة، في الأساس. وبعد مرور عام، ظهرت DALL-E 2 لأول مرة باعتبارها قفزة هائلة إلى الأمام. كانت الصور بأبعاد 1024 × 1024، وكانت تبدو حقيقية بشكل مدهش. ولكن كان هناك دائما ما يحكي.
في كيسي نيوتن التدريب العملي على DALL-E 2 وبعد إطلاقه في النسخة التجريبية مباشرة، قام بتضمين صورة مأخوذة من رسالته: “كلب شيبا إينو يرتدي زي رجل إطفاء”. إنه ليس سيئًا، وقد يخدعك إذا رأيته في لمحة. لكن ملامح فراء الكلب غامضة، والرقعة الموجودة على معطفه (الصغير الجميل) هي مجرد خربشات لا معنى لها، وهناك علامة طوق غريبة ومكتنزة معلقة على جانب رقبة الكلب لا تنتمي إلى هناك. كان من الأسهل تصديق لفائف القرفة بالعيون من نفس المقالة.
برزت Midjourney وStable Diffusion أيضًا في هذا الوقت تقريبًا، حيث احتضنهما فنانو الذكاء الاصطناعي والأشخاص الذين لديهم، أه، تصاميم أقل مذاقاً. ظهرت نماذج جديدة أفضل خلال العامين التاليين، مما أدى إلى تقليل العيوب وإضافة القدرة على عرض النص بشكل أكثر دقة إلى حد ما. لكن معظم الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي لا تزال تحمل مظهرًا معينًا: قليلا على نحو سلس والكمال، مع نوع من التوهج الذي يمكن ربطه بالصورة الشخصية أكثر من الصورة الصريحة. لا تزال بعض صور الذكاء الاصطناعي تبدو بهذه الطريقة، ولكن هناك اتجاه جديد نحو ذلك فِعلي الواقعية التي تخفف من اللمعان.
تعد OpenAI وافدًا جديدًا نسبيًا في عالم التكنولوجيا عند مقارنتها بأمثال Google وMeta، لكن تلك الشركات الراسخة لم تقف ساكنة مع صعود الذكاء الاصطناعي. في النصف الأخير من عام 2025، أصدرت Google نموذجًا جديدًا للصور في تطبيق Gemini الخاص بها يسمى Nano Banana. لقد انتشر الأمر على نطاق واسع عندما بدأ الناس في استخدامه لصنع تماثيل واقعية لأنفسهم. زميلي روبرت هارت حاولت الخروج من هذا الاتجاه ولاحظت شيئًا مثيرًا للاهتمام: النموذج حافظ على صورته الحقيقية بأمانة أكبر من أدوات الذكاء الاصطناعي الأخرى.
هذا هو ما يتعلق بصور الذكاء الاصطناعي: فهي غالبًا ما يميلون نحو أرضية وسطى محايدة ولطيفة. سيبدو طلبك للحصول على صورة جدول صحيحًا بشكل أساسي، ولكنه سيبدو أيضًا كنتيجة لجهاز الكمبيوتر الذي يقوم بحساب متوسط كل جدول شاهده على الإطلاق إلى شيء يفتقر إلى أي شخصية فعلية. الأشياء التي تجعل صورة الطاولة تبدو وكأنها حقيقية – أو نسخة طبق الأصل من ملامح وجهك – هي في الواقع عيوب. لا أقصد التحف الغريبة للذكاء الاصطناعي التي تحاول فهم الحروف الأبجدية. أعني القليل من الفوضى والفوضى والإضاءة أقل من المثالية. وفي الآونة الأخيرة، أصبح هذا يعني أيضًا تقليد عيوب الكاميرات الأكثر شهرة لدينا.
قامت Google بتحديث نموذج الصور الخاص بها منذ أقل من شهر، حيث وصفت Nano Banana Pro بأنه النموذج الأكثر تقدمًا وواقعية حتى الآن. إنه قادر على الاستفادة من المعرفة الواقعية وتقديم النص بشكل أفضل، ولكن الشيء الذي أجده الأكثر إثارة للاهتمام هو أنه غالبًا ما يحاكي مظهر الصورة الملتقطة بكاميرا الهاتف. التباين (أو عدمه)، والمنظور، والوضوح الشديد، وخيارات التعرض – العديد من الصور التي أنشأها هذا النموذج بالنسبة لي تحمل السمات المميزة لأنظمة كاميرات الهاتف.
سواء كنت على علم بذلك أم لا، فمن المحتمل أنك متناغم مع هذه النظرة أيضًا. تستخدم المستشعرات والعدسات الصغيرة في هواتفنا معالجة متعددة الإطارات للتغلب على قيودها مقارنة بالكاميرا الأكبر حجمًا، وقد تم تحسين هذه الصور للعرض على شاشة أصغر. وإجمالاً، يعني هذا أن صور الهاتف لها “مظهر” معين مقارنة بالتمثيل الفني للمشهد، مما يؤدي إلى تعزيز الظلال للكشف عن المزيد من التفاصيل وزيادة الحدة لإبراز الموضوعات. ومن الواضح أن منشئ الصور في Google قد استوعب هذا النمط أيضًا.
جوجل ليست وحدها التي تقدم مظهرًا أكثر واقعية للصور التي تم إنشاؤها. يحتوي منشئ صور Firefly من Adobe على عنصر تحكم يسمى “Visual Intensity” والذي يتيح لك تخفيف مظهر الذكاء الاصطناعي المتوهج. تبدو النتائج أقل وضوحًا وأقرب إلى أنها تم التقاطها بكاميرا حقيقية – ربما تكون كاميرا احترافية أكثر من كاميرا الهاتف، وهو أمر منطقي نظرًا لجمهور Adobe المستهدف من المحترفين. ولكن حتى مولد الذكاء الاصطناعي الخاص بـ Meta يحتوي على شريط تمرير لـ “الأسلوب”، والذي يضبط الواقعية لأعلى أو لأسفل وفقًا لذلك. وفي أماكن أخرى، تم استخدام أدوات إنشاء الفيديو مثل Sora 2 من OpenAI وVeo 3 من Google لإنشاء مقاطع فيروسية تحاكي الصور المحببة منخفضة الدقة للكاميرات الأمنية. عندما يجب أن يكون الذكاء الاصطناعي بنفس جودة كاميرات المراقبة، فقد يكون الأمر مقنعًا جدًا.
هناك الكثير من الأسباب الوجيهة للتعامل مع الادعاءات المتعلقة بإمكانات الذكاء الاصطناعي غير المحدودة للتحسين بالتشكيك. وكلاء الذكاء الاصطناعي لا تزال تكافح من أجل شراء زوج من الأحذية لك. لكن نماذج التصوير؟ لديهم إلى حد كبير تحسنت، والأدلة أمام أعيننا.
لقد تحدثت مؤخرًا مع بن ساندوفسكي، أحد مؤسسي تطبيق Halide الشهير لكاميرا iPhone، حول الاتجاه السائد مؤخرًا في مجال تقليد الهواتف الذكية باستخدام الذكاء الاصطناعي. ويقول إنه من خلال تبني ميول المعالجة القوية والإلمام بصور كاميرا الهاتف، والتي تجعل صورنا تبدو منفصلة قليلاً عن الواقع، “ربما تكون جوجل قد تجاوزت الوادي الغريب”. ليس من الضروري أن يجعل الذكاء الاصطناعي المشهد يبدو واقعيًا – بطريقة ما، هذا هبة ميتة. كل ما عليه فعله هو تقليد الطريقة التي نسجل بها الواقع، بكل عيوبه، واستخدامه كنوع من رموز الغش لجعل الصورة تبدو قابلة للتصديق. فكيف نصدق أي صورة نراها؟
هناك وجهة نظر سام التمان، سيتم دمج الصور الحقيقية وصور الذكاء الاصطناعي معًا في المستقبل، وسنكون على ما يرام مع ذلك. أعتقد أنه على حق جزئيًا، لكني أجد صعوبة في تصديق أننا لن نهتم حقًا بما هو حقيقي وما هو ليس كذلك. ومن أجل حل الأمرين بأنفسنا، سنحتاج إلى بعض المساعدة. ويبدو أنها في الطريق، ولكنها لا تأتي بالسرعة التي تتحسن بها نماذج صور الذكاء الاصطناعي.
ال معيار بيانات اعتماد المحتوى الخاص بـ C2PA يكتسب بعض الزخم الذي تشتد الحاجة إليه. على هواتف سلسلة Pixel 10 من Google، كل تحصل الصورة الملتقطة بالكاميرا على توقيع مشفر يحدد كيفية صنعها. وهذا يتجنب “تأثير الحقيقة الضمنية”، كما قال رئيس كاميرا Pixel إسحاق رينولدز وأوضح لي في وقت سابق من هذا العام. إذا قمت فقط بتسمية الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي على أنها ذكاء اصطناعي، فإننا نفترض أن كل شيء بدون تسمية حقيقي. في الواقع، عدم وجود ملصق يعني فقط أننا لا نعرف من أين جاءت الصورة. لذلك تقوم كاميرا Pixel بتسمية كل من الصور المدعومة بالذكاء الاصطناعي وغير المدعومة بالذكاء الاصطناعي على حدٍ سواء.
الملصقات كلها جيدة وجيدة، ولكنها ليست مفيدة إذا لم تتمكن من رؤيتها. لقد بدأ هذا يتغير، وفي وقت سابق من هذا العام، أضافت خدمة Google Photos دعمًا لعرض بيانات اعتماد المحتوى. ستعمل الشركة أيضًا على تسهيل عرض بيانات اعتماد المحتوى في نتائج البحث والإعلانات عند وجودها. هذا الجزء الأخير هو المفتاح، على الرغم من ذلك – في الوقت الحالي، لا يتم تعيين بيانات اعتماد لمعظم الصور الملتقطة بكاميرات الهاتف اليوم. لكي يعمل النظام، يحتاج صانعو الأجهزة إلى اعتماد المعيار بحيث يتم تمييز الصور على أنها ذكاء اصطناعي أو لا يتم تمييزها عند إنشائها. تحتاج الأنظمة الأساسية التي تتم فيها مشاركة الصور إلى المشاركة أيضًا. وإلى أن يحدث ذلك، نحن وحدنا – وهذا هو الوقت الأفضل من أي وقت مضى لعدم الثقة في أي شيء تراه.
- لا تقدم كاميرات Pixel 10 من Google أدوات لتحرير الصور بتقنية الذكاء الاصطناعي فحسب، بل يوجد أيضًا نموذج ذكاء اصطناعي إبداعي مضمن مباشرة في مسار التصوير. يتم استخدامه فقط في ميزة تسمى Pro Res Zoom، ويهدف إلى تحسين جودة صورة التكبير الرقمي السيئة جدًا. إنه لا يعمل على الناس في الوقت الحالي، وهو أمر جيد في كتابي.
- يتبنى صانعو الكاميرات التقليدية بيانات اعتماد المحتوى الخاصة بـ C2PA أيضًا، وإن كان ذلك ببطء، مثل كاميرا Leica M-11P التي تبلغ قيمتها أكثر من 9000 دولار.
- وفي الوقت نفسه، أصبحت أدوات التحرير المدعومة بالذكاء الاصطناعي في Photoshop مثل التعبئة التوليدية أكثر قوة وشعبية لدى المصورين. هناك حل وسط بين الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي بالكامل والصور التي لم يمسها الذكاء الاصطناعي والتي أصبح تحديدها أكثر صعوبة.
- كتب زميلي جيس ويذربيد شرح عظيم لC2PA وهذا (بشكل محبط!) لا يزال انعكاسًا جيدًا لما وصلنا إليه بعد مرور عام.
- سلكي تحدثت إلى فريق كاميرا Pixel في Google حول إطلاق Pixel 9 كيف يتعامل مع صورنا وكأنها ذكريات.
- بلومبرج قام بالتحقيق في مجتمع المبدعين باستخدام أدوات مثل Sora 2 إنشاء محتوى تم إنشاؤه بواسطة الذكاء الاصطناعي للأطفال على YouTube. كئيب!


