في دراسة حديثة، استخدم فريق من الباحثين من عدة جامعات وشركات تقنية، بما في ذلك كلية ويلسلي وجامعة نورث إيسترن وشركة Cursor الناشئة، ألغاز برنامج "لغز الأحد" من محطة الراديو NPR لمعايرة نماذج الذكاء الاصطناعي وقدراته على الاستدلال.
هذه الألغاز، التي يقدمها خبير الألغاز ويل شورتز، معروفة بصعوبتها رغم أنها لا تتطلب معرفة متخصصة، ما يجعلها أداة مثالية لاختبار قدرات الذكاء الاصطناعي على التفكير المنطقي.
قام الباحثون بإنشاء معيار جديد باستخدام حوالي 600 لغز من برنامج "لغز الأحد" المذاع عبر الراديو، بهدف تقييم مدى قدرة النماذج على حل المشكلات باستخدام المعرفة العامة فقط، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business".
وأظهرت النتائج أن بعض النماذج، مثل o1 من "OpenAI" وR1 من "ديب سيك"، تفوقت على غيرها في حل هذه الألغاز.
ومع ذلك، كشفت الدراسة أيضًا أن بعض النماذج تقدم إجابات خاطئة حتى عندما تعرف أنها غير صحيحة، بل إن بعضها يعلن عن استسلامه بشكل مشابه لرد فعل الإنسان.
التحديات والرؤى
أوضح أرجون جوها، أحد الباحثين المشاركين في الدراسة، أن هذه الألغاز صُممت لتكون صعبة حتى بالنسبة للبشر، مما يجعلها اختبارًا قويًا لقدرات الذكاء الاصطناعي.
وأضاف أن النماذج التي تعتمد على الاستدلال، مثل o1، تتفوق لأنها تتحقق من صحة إجاباتها قبل تقديمها، مما يقلل من الأخطاء.
ومع ذلك، فإن هذه النماذج تستغرق وقتًا أطول في الوصول إلى الحلول مقارنة بالنماذج الأخرى.
سلوكيات غريبة للنماذج
كشفت الدراسة عن سلوكيات غريبة لبعض النماذج، مثل تقديم إجابة خاطئة ثم التراجع عنها فورًا، أو الاستمرار في التفكير لفترات طويلة دون الوصول إلى نتيجة.
بل إن بعض النماذج أظهرت سلوكًا يشبه الإحباط البشري، حيث تعبر عن شعورها بالعجز عند مواجهة الألغاز الصعبة.
نتائج مبشرة بمزيد من التطور
حقق النموذج o1 أفضل أداء بنسبة 59% في حل الألغاز، يليه النموذج o3-mini بنسبة 47%، أما النموذج R1 فحصل على 35%.
يخطط الباحثون لتوسيع نطاق الدراسة ليشمل نماذج استدلال إضافية، بهدف تحسين فهم قدرات الذكاء الاصطناعي وتحديد مجالات التطوير المستقبلية.
قال جوها: "لا تحتاج إلى درجة الدكتوراه لتكون جيدًا في التفكير، لذا يجب أن يكون من الممكن تصميم معايير تفكير لا تتطلب معرفة متخصصة، المعيار الذي يتمتع بإمكانية وصول أوسع يسمح لمجموعة أكبر من الباحثين بفهم وتحليل النتائج، مما قد يؤدي إلى حلول أفضل في المستقبل".
ملحوظة: مضمون هذا الخبر تم كتابته بواسطة جو 24 ولا يعبر عن وجهة نظر مصر اليوم وانما تم نقله بمحتواه كما هو من جو 24 ونحن غير مسئولين عن محتوى الخبر والعهدة علي المصدر السابق ذكرة.