لماذا لا يمكن للذكاء الاصطناعي تهجئة 'الفراولة'
كم مرة يظهر الحرف 'r' في كلمة 'الفراولة؟' وفقا لمنتجات الذكاء الاصطناعي القوية مثل GPT-4o وكلود، الجواب هو مرتين.
\nيمكن لنماذج اللغة الكبيرة كتابة مقالات وحل المعادلات في ثوانٍ. يمكنها توليف تيرابايتات من البيانات بشكل أسرع مما يمكن للبشر فتح كتاب. ومع ذلك، فإن هذه الذكاء الاصطناعي العظيمة تفشل أحيانًا بشكل مذهل لدرجة أن الخطأ يتحول إلى ميم موجة، ونحن جميعًا نفرح بالراحة ربما لا يزال هناك وقت قبل أن ننحني أمام سادتنا الجدد من الذكاء الاصطناعي.
\nفشل نماذج اللغة الكبيرة في فهم مفاهيم الحروف والمقاطع الصوتية يشكل دليلا على حقيقة أكبر نغفل عنها في كثير من الأحيان: هذه الأشياء ليس لديها أدمغة. إنها لا تفكر مثلنا. إنها ليست بشرية، ولا حتى تشبه البشر كثيرًا.
\nمعظم نماذج اللغة الكبيرة مبنية على الإنتقالات، نوع من بنية التعلم العميق. تقسم نماذج الانتقال النص إلى رموز، يمكن أن تكون كلمات كاملة أو مقاطع صوتية أو حروف، اعتمادًا على النموذج.
\nوقال ماثيو غزديال، باحث في الذكاء الاصطناعي وأستاذ مساعد في جامعة ألبرتا، لتيك كرانتش: 'تقوم نماذج اللغة الكبيرة على هذه البنية العميقة، والتي لا تقرأ النص فعليا. ما يحدث عند إدخال مساعدة هو ترجمتها إلى ترميز، عندما ترى كلمة 'the'، لديها هذا الترميز لماذا 'the' يعني، ولكنها لا تعرف شيئًا عن 'T'، 'H'، 'E'.'
\nوهذا لأن الانتقالات لا تستطيع استيعاب النص الفعلي أو إخراجه بكفاءة. بدلاً من ذلك، يتم تحويل النص إلى تمثيلات عددية لنفسه، ثم يتم سياقه لمساعدة الذكاء الاصطناعي على إيجاد استجابة منطقية. بعبارة أخرى، قد يعرف الذكاء الاصطناعي أن الرموز 'straw' و 'berry' تشكلان 'الفراولة'، ولكنه قد لا يفهم أن 'الفراولة' مكونة من الحروف 's'، 't'، 'r'، 'a'، 'w'، 'b'، 'e'، 'r'، 'r'، و 'y'، بهذا الترتيب المحدد. وبالتالي، لا يمكنه أن يخبرك كم عدد الحروف - ولن تقول كم حرف 'r' - تظهر في كلمة 'الفراولة'.
\nهذه ليست مشكلة سهلة التصحيح، لأنها مضمنة في النمط العميق الذي يجعل هذه النماذج الكبيرة اللغة تعمل.
\nقام كايل ويجرز من تيك كرانتش بالتحقيق في هذه المشكلة الشهر الماضي وتحدث إلى شيريدان فوشت، طالبة دكتوراه في جامعة نورث إيسترن تدرس قابلية فهم نماذج اللغة الكبيرة.
\n'من الصعب إيجاد حلاً للسؤال حول ما يجب أن تكون 'كلمة' بالضبط لنموذج لغة، وحتى لو توصلنا إلى خبراء بشريين للاتفاق على قاموس مثالي للرموز، ربما ستجد النماذج ما زالت مفيدة لتجزئة الأمور بشكل أكبر،' قالت فوشت لتيك. 'تخميني سيكون أنه لا شيء يسمى مترزق مثالي بسبب هذا النوع من الضبابية.'
\nتصبح هذه المشكلة أكثر تعقيدًا مع تعلم نموذج اللغة الكبير أكثر لغات. على سبيل المثال، قد تفترض بعض طرق الترميز أن مسافة في جملة ستسبق دائمًا كلمة جديدة، ولكن العديد من اللغات مثل الصينية واليابانية والتايلاندية واللاو والكورية والخمير وغيرها لا تستخدم المسافات لفصل الكلمات. وجدت باحثة ذكاء الالة في جوجل ديب مايند ييني جون في دراسة عام 2023 أن بعض اللغات تحتاج إلى ما يصل إلى 10 مرات أكثر من الرموز من الإنجليزية لنقل نفس المعنى.
\n'من الأفضل ربما السماح للنماذج بالنظر إلى الشخصيات مباشرة دون فرض الترميز، ولكن في الوقت الحالي لا يمكن القيام به ذلك بشكل عملي للانتقالات،' قالت فوشت.
\nمولدات الصور مثل Midjourney و DALL-E لا تستخدم بنية الإنتقالات التي تكمن تحت غطاء مولدات النص مثل ChatGPT. بدلاً من ذلك، تستخدم مولدات الصور عادة نماذج الانتشار، التي تعيد بناء صورة من الضجيج. تتم تدريب نماذج الانتشار على قواعد بيانات كبيرة من الصور، ويتم تحفيزها لمحاولة إعادة خلق شيء مثل ما تعلمته من بيانات التدريب.
\nقال أسملاش تيكا هادجو، مؤسس Lesan وزميل في معهد DAIR، لتيك كرانتش: 'يبدو أن مولدات الصور تؤدي بشكل أفضل على الأشياء مثل السيارات ووجوه الناس، وليس كذلك على الأشياء الأصغر مثل الأصابع والكتابة اليدوية.'
\nربما يعود هذا إلى أن هذه التفاصيل الأصغر لا تظهر كثيرًا في مجموعات التدريب كما تظهر مفاهيم مثل كيفية أن الأشجار عادة تحتوي على أوراق خضراء. قد تكون المشاكل مع نماذج الانتشار أسهل في حلها من تلك التي تؤثر على الانتقالات، على الرغم من ذلك. تحسنت بعض مولدات الصور في تمثيل الأيدي، على سبيل المثال، من خلال التدريب على المزيد من الصور الفعلية لليدين البشرية.
\n'حتى في العام الماضي فقط، كانت هذه النماذج سيئة جدًا في الأصابع، وهو نفس المشكلة تمامًا كمع النص،' أوضح غزديال. 'إنها تتحسن بشكل جيد محليًا، لذلك إذا نظرت إلى يد بها ستة أو سبعة أصابع عليها، يمكنك أن تقول، 'أوه، هذا يبدو كأصبع.' وبالمثل، مع النص المولد، يمكنك أن تقول، إنه يبدو ك 'H'، وهذا يبدو ك 'P'، ولكنها سيئة جدًا في هيكلة هذه الأشياء بأكملها معًا.'
\nلذلك، إذا سألت مولد صور AI لإنشاء قائمة لمطعم مكسيكي، قد تحصل على عناصر عادية مثل 'تاكوس'، ولكن من المرجح أن تجد عروضًا مثل 'Tamalos'، 'Enchidaa' و 'Burhiltos'.
\nمع امتداد هذه الميمات عن إملاء 'الفراولة' عبر الإنترنت، تعمل OpenAI على منتج ذكاء اصطناعي جديد يحمل اسم Strawberry، والذي من المفترض أن يكون أكثر كفاءة في التفكير. تم تقييد نموذج نموذج اللغة الكبيرة بأنه ببساطة ليس هناك ما يكفي من بيانات التدريب في العالم لجعل منتجات مثل ChatGPT أكثر دقة. ومن المقرر أن يمكن Strawberry من إنشاء بيانات اصطناعية دقيقة لجعل نماذج اللغة الكبيرة لدى OpenAI أفضل. وفقًا لموقع The Information، يمكن لـ Strawberry حل ألغاز كلمات التصالب في New York Times، والتي تتطلب تفكيرًا إبداعيًا واعتراف بالأنماط للحل، ويمكن حل المعادلات الرياضية التي لم يرها من قبل.
\nفي الوقت نفسه، أعلنت Google DeepMind مؤخرًا عن AlphaProof و AlphaGeometry 2، أنظمة ذكاء اصطناعي مصممة للتفكير الرياضي الرسمي. تقول Google إن هذين النظامين حلوا أربعة من ستة مشاكل من الأولمبياد الدولي للرياضيات، مما سيكون أداء جيد بما فيه الكفاية للفوز بميدالية فضية في المسابقة الرائعة.
\nإنها بعض السخرية من أن الميمات حول عدم قدرة الذكاء الاصطناعي على تهجئة 'الفراولة' تمتد عبر الإنترنت في نفس الوقت التي تقارير عن Strawberry من OpenAI. ومع ذلك، قفز سام ألتمان، الرئيس التنفيذي ل