اكتشف علماء من جامعة تافتس سبب صعوبة الذكاء الاصطناعي في التعامل مع اللغة المنطوقة، على الرغم من أنها تبدو سهلة للغاية بالنسبة للبشر. تظهر الأبحاث أن المشكلة الرئيسية تكمن في مجموعة البيانات الأساسية التي تم تدريب الذكاء الاصطناعي الحديث عليها.

عندما يتحدث الناس، فإنهم يعرفون بشكل حدسي متى يتدخلون أو يستمرون في الاستماع. يحدث هذا بسبب إمكانية تحديد “نقاط الانتقال” التي يمكن للمحاور من خلالها تغيير المتحدثين. يؤكد العلماء أن آليات الاتصال هذه تعتمد على المحتوى الدلالي للكلام، وليس فقط على التوقفات أو التجويد.
وفقًا لأستاذ علم النفس وعلوم الكمبيوتر جي بي دي رويتر، كان يُعتقد سابقًا أن التنغيم والإشارات البصرية هي التي تساعد في تحديد مثل هذه اللحظات في المحادثة. ومع ذلك، كما أظهرت التجربة، فإن الجزء الدلالي هو الأكثر أهمية: حتى عندما يتم تقديم النص بنبرة واحدة، لا يزال الناس يخمنون نقاط الانتقال المناسبة، على عكس الذكاء الاصطناعي.
يتم تدريب أنظمة الذكاء الاصطناعي في المقام الأول على النصوص المكتوبة، بما في ذلك المقالات والمناقشات والمعلومات الأساسية، بدلاً من نصوص المحادثات الحقيقية. تتمتع المحادثة وجهًا لوجه ببنية أكثر رسمية وإيجازًا وبساطة، مما يميزها عن الكلام المكتوب القياسي، وعلى هذا النحو، ليس لدى الذكاء الاصطناعي أي خبرة في تدفقات الكلام الطبيعية.
ويعتقد العلماء أنه لتحسين قدرة الذكاء الاصطناعي على التحدث، فإنه يحتاج إلى تدريب إضافي على أساس الحوارات الطبيعية. ومع ذلك، يظل هذا تحديًا: فبيانات المحادثات واسعة النطاق ليست متاحة بعد.
