تكنولوجيا

نموذج Gemini للذكاء الاصطناعي المطور من جوجل

لن تجد جوجل أفضل من هذه الأيام لإطلاق نظامها الخارق إلى ساحة الذكاء الاصطناعي التي تشتعل بالمنافسة حاليًا. فقد قررت جوجل أن تختم عام 2023، بإطلاق نظام جيمناي – Gemini، ذلك النظام الخارق متعدد الوسائط، متعدد المهارات، والذي يمكن وصفه بالمُحاكي الأقرب للعقل البشري!

استحق عام 2023 لقب «عام الذكاء الاصطناعي» بجدارة، بعد أن شهد كافة التطورات الثورية التي طرأت على هذا المجال الذي سيغير من التاريخ التقني البشري، وذلك منذ بداية العام بإطلاق نموذج ChatGPT الغني للتعريف، مرورًا بإطلاق العديد من النماذج الأخرى المختلفة، حتى تختم جوجل العام بنموذج جيمناي الذي سيتربع على عرش هذا المجال، حتى الآن على الأقل.

يأتي جيمناي حاليًا بثلاث نسخ:

  • جيمناي نانو: وهي النسخة الأصغر، والتي تسعى جوجل إلى تضمينها داخل نظام أندرويد، وبدأت جوجل بالفعل في إضافتها ضمن التحديث الأخير لهواتف بيكسل 8 برو.
  • جيمناي برو: وهي النسخة الأساسية المناسبة لكافة أنواع المهام، والتي بدأت جوجل في دمجها مع شات Bard.
  • جيمناي ألترا: وهي النسخة الأكبر والأضخم، وستعتمد جوجل عليها في المهام الصعبة شديدة التعقيد، مثل إنتاج الأكواد البرمجية.

نستعرض في هذا المقال كافة التفاصيل المُعلنة حتى الآن حول Gemini، مع التنويه أنها لا تمثل كل ما يحمله هذا النظام الخارق في جعبته بالطبع!

بدايًة .. Gemini – نظام متعدد الوسائط

كشفت جوجل عن مشروع جيمناي أول مرة في شهر مايو الماضي خلال مؤتمرها للمطورين. ووصفت جوجل المشروع بأنه سيقدم «جيلًا جديدًا» من الذكاء الاصطناعي. وأكدت جوجل أن المشروع كان يهدف منذ البداية إلى إنشاء نموذج ذكاء اصطناعي متعدد الوسائط؛ حتى يتمكن من فهم الوسائط المختلفة، كالصور والفيديو والنصوص، في نفس الوقت. وبالتالي، فهو يختلف تمامًا عن النموذج اللغوي الكبير (LLM) الذي تقوم عليه أغلب أنظمة الذكاء الاصطناعي الحالية، مثل ChatGPT، وBard.

النموذج اللغوي الكبير والنظام متعدد الوسائط

يعد النموذج اللغوي الكبير أحد أنظمة الذكاء الاصطناعي التي تعتمد في تدريبها على مجموعات عملاقة من النصوص. ويتميز هذا النموذج بقدرته على قراءة وتحليل النصوص المختلفة، وتنفيذ العديد من العمليات عليها، كالترجمة، وكتابة المحتوى الإبداعي، والإجابة على الأسئلة والاستفسارات المختلفة.

أما بالنسبة للنظام متعدد الوسائط؛ فهو عبارة عن نموذج لغوي كبير أيضًا، ولكن استُخدمت في تدريبه أنواع متعددة من الوسائط الأخرى، كالصور، ومقاطع الفيديو، والمقاطع الصوتية. وبالتالي، يتمكن هذا النظام من فهم وتحليل كافة الوسائط المختلفة؛ في نفس الوقت، وضمن سياق محدد. ويحاول هذا النظام الاقتراب بشكل كبير من طريقة عمل العقل البشري في فهم ما يتعرض له.

وخلال عام 2023، حاولت العديد من الشركات تطوير أنظمة ذكاء اصطناعي متعددة الوسائط، بشكل أو بآخر. ومع ذلك، ما زالت هذا الأنظمة تخطو خطواتها الأولى في هذا المجال، إذ تواجه هذه الشركات صعوبات في دمج النماذج ذات الوسائط المختلفة لتعمل بشكل متناسق ككيان واحد.

وحتى هذه اللحظة، كان الأسلوب المتبع لتطوير النماذج الأخرى، حتى تصبح متعددة الوسائط، قائمًا على تدريب نماذج الوسائط المختلفة على حدة، ثم محاولة ربطها ببعضها البعض في نظام واحد. وقد ينجح هذا الأسلوب في تنفيذ بعض المهام، مثل فهم ووصف الصور؛ ومع ذلك، سيواجه هذا النظام بعض المغالطات المنطقية عند تعرضه لبعض السيناريوهات الأكثر تعقيدًا، والتي تحتاج إلى تآزر تام بين فهم كافة الوسائط المختلفة في نفس الوقت، ومعالجتها ضمن سياق محدد.

أما في Gemini، فقد وضحت جوجل أنه كان نظامًا متعدد الوسائط في الأصل؛ وبالتالي، فإن عمليات تدريبه من البداية كانت تتضمن تعرضه لجميع الوسائط المختلفة. وبعد هذه العمليات التدريبية المعقدة، بدأت جوجل في صقل وتحسين البيانات في مختلف الوسائط التي اكتسبها النظام؛ لزيادة فاعليتها ودقة تآزرها مع بعضها البعض.

وكانت النتيجة تفوق جيمناي بشكل ملحوظ، على كافة الأنظمة الأخرى، إذ أبدى جيمناي تفوقه في فهم كافة الوسائط المختلفة التي تُعرض عليه في نفس الوقت، بما يشمل الصور، والنصوص، والصوتيات، ما جعله المحاكي الأقرب للعقل البشري ضمن أنظمة الذكاء الاصطناعي الأخرى الموجودة حاليًا. وبالتالي، فإن جوجل تسعى أن تأخذ مفهوم تعددية الوسائط نحو تطوير جيل جديد من الذكاء الاصطناعي.

طالع أيضًا: كيف تعمل نماذج الذكاء الاصطناعي مثل ChatGPT؟

قدرات Gemini الخارقة

يعتمد جيمناي على النماذج المختلفة التي تعمل بشكل متناسق فيما بينها، لفهم الصور والنصوص، وتحديد المعلومات من بين كميات ضخمة من البيانات. وبالتالي، تتعدد المجالات التي يمكن أن يتفوق فيها جيمناي كمساعد شخصي، وسنستعرض الآن بعض القدرات الخارقة التي أثبت جيمناي تفوقه فيها.

المساعدة في البحث العلمي

يحتاج الباحثون دائمًا إلى القراءة والاطلاع على مئات، بل آلاف الأوراق العلمية والدراسات لاستخراج بعض المعلومات المعينة منها، والتي تخدم بحثهم العلمي. ومن هنا تأتي نقطة تفوق جيمناي، إذ أثبت قدرته على قراءة مئات الآلاف من الأوراق العلمية، بل واستخراج بعض الأفكار المعينة التي يحددها الباحث، ليقوم بعد ذلك بفلترتها وإظهار النتائج بشكل مفصل ومرتب، ما يوفر كميات ضخمة من الوقت والجهد على الباحثين.

وليس هذا فحسب، يمكن أيضًا استخدام قدرات جيمناي الخاصة بقراءة وفهم الصور، لدراسة الرسوم البيانية وتحليلها؛ حتى يتمكن في النهاية من عمل رسوم بيانية جديدة بنفس النمط، ولكن لمجموعات مختلفة من البيانات.

وكشفت جوجل أن جيمناي تمكن من قراءة 200 ألف ورقة بحثية، ثم  فلترها إلى 25 ألف ورقة اعتمادًا على المعلومات الهامة التي حددها الباحث، بالإضافة إلى استخراجها وعرضها بشكل مرتب ومنظم، وكل هذا في أقل من ساعة فقط. قدرات خارقة تبدو وكأنها منبثقة من أفلام الخيال العلمي!

فهم الوسائط المختلفة في نفس الوقت

تعد هذه القدرة الخارقة لـ Gemini أفضل استعراض لمبدأ تعددية الوسائط، إذ يتمكن جيمناي من قراءة الصور، وتحليل محتوياتها، وقراءة النصوص المكتوبة بداخلها أو معها، وذلك لفهم السياق الكامل للصورة قبل تنفيذ أي مهام؛ وبالتالي، سيقلل ذلك من احتمالية وقوع أي مغالطات منطقية، والتي يشيع حدوثها في أنظمة الذكاء الاصطناعي الأخرى.

المساعدة في الدراسة

استعرضت جوجل قدرة Gemini على معالجة الصور والنصوص في نفس الوقت، وذلك من خلال قراءة ورقة حل أحد الطلاب لمجموعة من المسائل الرياضية (المحلولة بخط اليد)، وتمكن جيمناي من التعرف على الحلول وتصحيحها، بل وقدم شرحًا أيضًا لسبب الحلول الخاطئة؛ وذلك لمساعدة الطالب في فهم الحل الصحيح. وأتاح جيمناي أيضًا المجال للطالب حتى يسأل عن طرق الحل المختلفة ليشرحها خطوةً بخطوة.

فهم وتحليل الصور

استعرضت جوجل عددًا من الاختبارات التي أقامها المطورون على Gemini، والتي تضمنت عرض مجموعة من الصور، مع توجيه بعض الأسئلة التي تطلب تحليل محتويات الصور من عدة نواحٍ. ويظهر في هذا المقطع اختبار لطيف عبارة عن عرض صور تدل على اسم أحد الأفلام، ويُطلب من جيمناي تخمين اسم الفيلم، ونجح جيمناي تخمين أسماء جميع الأفلام التي عُرضت عليه.

تمكن جيمناي أيضًا من التعرف على الأشياء الموجودة داخل الصور، بل وإيجاد الروابط بينها، إذ عُرضت عليه صورة للقمر بجانبها صورة أخرى لكرة جولف، وتمكن جيمناي من تحديد كلًا منهما، وذكر أن الرابط بينهما أن القمر هو الجرم الفضائي الوحيد الذي لعب عليه البشر لعبة الجولف، وذلك ضمن بعثة أبولو 14 عام 1971 عندما ضرب أفراد طاقم البعثة كرتي جولف على سطح القمر! فهل كنت تعلم أنت هذه المعلومة؟

فهم وتحليل المقاطع الصوتية

أظهرت جوجل أيضًا قدرات Gemini في التعامل مع الصوتيات، إذ أدار أحد المطورين حوارًا صوتيًا مع جيمناي، وطلب منه ترجمة وتلخيص أحد المقاطع الصوتية من لغة إلى لغة أخرى، ونجح جيمناي في هذه المهمة بكل سلاسة. وأجرت جوجل أيضًا اختبارًا آخر لتحديد قدرة جيمناي على فهم الصور والصوتيات في نفس الوقت.

تضمن الاختبار طلب مساعدة جيمناي صوتيًا في تحضير وجبة البيض المقلي، واعتمد المطور على سؤال جيمناي مع عرض صور لمراحل الطبخ المختلفة، وتمكن جيمناي من فهم الصور وتقييمها وإرشاد المطور خطوةً بخطوة حتى ينجح في إنهاء عملية طبخ الوجبة اعتمادًا على صور مراحلها المختلفة.

القدرات البرمجية

طُور Gemini ليكون قادرًا على فهم وشرح الأكواد البرمجية، بل وكتابة أيضًا أكواد عالية الكفاءة، وذلك باستخدام أشهر لغات البرمجة المنتشرة حاليًا، مثل بايثون، وجافا، وC++، وGo، وغيرها. تفوق جيمناي ألترا في العديد من اختبارات الأداء الخاصة بإنتاج الكود البرمجي، مثل منصة HumanEval، ومنصة Natural2Code، ونجح جيمناي في التفوق على 85% من المنافسين، وقد تزيد النسبة أيضًا بشكل كبير إذا تدخل المبرمجون في توجيه جيمناي للحصول على أفضل أداء ممكن في إنتاج الكود.

وبالتالي، نرى أن جوجل قد نجحت في استعراض قدرات جيمناي الخارقة في التعامل مع مختلف أنواع المدخلات في نفس الوقت، وهو جوهر مبدأ تعدد الوسائط، والذي أخذته جوجل إلى مستوى غير مسبوق من الإبداع.

هل يتفوق Gemini على ChatGPT؟

في الوقت الحالي؛ نعم وبكل تأكيد! ولكن يمكن اعتبار المقارنة ظالمةً أصلًا بالنسبة لـ ChatGPT، فهو عبارة عن نموذج لغوي كبير فقط، أي أنه غير متعدد الوسائط مثل Gemini. ومع ذلك؛ فحتى بعدما طورت OpenAI نظام GPT-4V، وهي النسخة متعددة الوسائط من ChatGPT؛ ظل جيمناي متفوقًا. وذلك لأن جيمناي مُطور من البداية ليكون متعدد الوسائط؛ وقد أظهر تفوقًا على مختلف النماذج المناظرة الأخرى أيضًا، وذلك في أغلب اختبارات الأداء التي نفذتها جوجل.

وقد جهزنا هذه المقارنة بين جيمناي وChatGPT باستخدام شات بارد، والذي يعمل حاليًا على نموذج جيمناي برو!

الخاصية

Chat-GPT

Gemini

نوع النموذج نموذج لغوي كبير – Large Language Model (LLM) نموذج لغوي كبير متعدد الوسائط – Multimodal Large Language Model (MMLLM)
نوع المدخلات نصوص فقط جميع الوسائط المختلفة؛ نصوص، وصور، ومقاطع فيديو، ومقاطع صوتية، وأكواد برمجية معقدة
القدرات توليد النصوص، والترجمة، وكتابة المحتوى الإبداعي، وكتابة الكود البرمجي جميع قدرات نموذج LLM بالإضافة إلى فهم وتحليل الصور ومحتوياتها، واستخراج المعلومات منها، تلخيص محتوى الوسائط المختلفة، ترجمة مقاطع الفيديو، اكتشاف الأشياء والتعرف عليها من الصور والفيديو.
نقاط القوة قدرات قوية على فهم وتوليد النصوص والأكواد البرمجية، بالإضافة إلى السبق والانتشار الواسع القدرة على الربط بين الوسائط المختلفة لفهم سياق معين، وقابلية الاستخدام في عدد كبير من التطبيقات التي ستؤدي إلى تطورات ثورية في مختلف المجالات
نقاط الضعف محدود بالمدخلات النصية، وقد يواجه بعض الصعوبات في المفاهيم المعقدة التي تتطلب فهم العلاقة بين الوسائط المختلفة ما زال تحت التطوير، ويتطلب عمليات تدريبية أكثر تعقيدًا، بالإضافة إلى المزيد من الموارد الحاسوبية المكلفة
التطبيقات روبوتات الدردشة (Chatbots)، إنشاء المحتوى الإبداعي، الترجمة الآلية، إنتاج الكود البرمجي التعليم، الرعاية الصحية، الإعلام والترفيه، خدمة العملاء، الروبوتات
التوفر متوفر للجميع كتطبيق قائم بذاته لم يُطرح بعد بشكل مستقل، ولكن طرحته جوجل حاليًا بشكل مدمج مع شات بارد

التوفر

حتى هذه اللحظة، لم توفر جوجل Gemini بشكل مستقل مثل بقية الأنظمة الأخرى، ولكنها قررت دمجه في عدد من خدماتها المختلفة. فعلى سبيل المثال، قررت جوجل دمج جيمناي برو في شات بارد، ولكن باللغة الانجليزية فقط في أكثر 170 دولةً، من بينهم مصر والسعودية ولبنان، مع نيتها في التوسع إلى العديد من المناطق واللغات الأخرى. وأيضًا، قررت جوجل دمج جيمناي نانو في تحديث بيكسل 8 برو “أول هاتف يعمل بالذكاء الاصطناعي – وِفقًا لجوجل” الأخير، وكشفت عن نيتها في دمج هذا النظام في جميع أجهزة الأندرويد.

قررت جوجل أيضًا أن تفتح جيمناي برو أمام المطورين بدءًا من يوم 13 ديسمبر القادم، وذلك لتتيح الفرصة أمام جميع المطورين لبناء التطبيقات التي تستخدم هذا النظام الجديد، وذلك من خلال واجهات API مجانية تطرحها جوجل عبر منصتها Google AI Studio، وستتيح جوجل الفرصة أيضًا أمام مطوري الأندرويد ببناء التطبيقات باستخدام جيمناي نانو، والذي بدأ إطلاقه في التحديث الأخير لهواتف بيكسل 8 برو.

وفي النهاية، يبدو أن جوجل تتحدى نفسها، إذ لم يتمكن أي نظام ذكاء اصطناعي من مقارعة Gemini حتى الأن. ولكن يبدو أن عام 2024 سيحمل في طياته الكثير، إذ دخلت آبل الساحة منذ عدة أيام؛ فالمنافسة في مجال الذكاء الاصطناعي قد بدأت للتو!

?xml>