
تحقیقات جدید نشان میدهد که برخی از پیشرفتهترین مدلهای هوش مصنوعی جهان، از جمله GPT-5، Claude و Gemini، در حفظ تمرکز و پیروی از دستورالعملهای طولانیمدت با محدودیتهایی روبهرو هستند. پژوهشگران با استفاده از یک آزمایش روانشناسی مشهور به نام «آزمون استروپ» (Stroop Task) به بررسی نحوه پردازش اطلاعات توسط مدلهای زبانی بزرگ (LLMs) پرداختند و نتایج جالبی به دست آوردند. این مطالعه که توسط تیمی به رهبری سوکتو پاتل انجام شد، نشان میدهد اگرچه هوش مصنوعی در بسیاری از وظایف پیچیده مانند تولید محتوا، برنامهنویسی و استدلال عملکرد فوقالعادهای دارد، اما ممکن است در حفظ تمرکز روی یک هدف مشخص در طول زمان دچار مشکل شود.
آزمون استروپ چیست؟
آزمون استروپ یکی از شناختهشدهترین آزمایشهای روانشناسی شناختی است که برای سنجش توجه، تمرکز و کنترل ذهنی طراحی شده است. در این آزمایش، کلمات مربوط به رنگها مانند «قرمز» یا «آبی» با رنگهای مختلف نمایش داده میشوند. گاهی رنگ نوشته با معنای کلمه یکسان است؛ برای مثال کلمه «قرمز» با رنگ قرمز نمایش داده میشود. اما در برخی موارد، رنگ و معنا با یکدیگر تضاد دارند؛ مثلاً کلمه «قرمز» با رنگ آبی نوشته میشود. وظیفه شرکتکنندگان این است که رنگ نوشته را تشخیص دهند و معنای کلمه را نادیده بگیرند. برای انسانها این کار نیازمند کنترل شناختی و تمرکز است، زیرا مغز بهطور خودکار تمایل دارد ابتدا کلمه را بخواند. با این حال، بیشتر افراد حتی در آزمونهای طولانی نیز میتوانند تمرکز خود را حفظ کنند و پاسخهای دقیقی ارائه دهند.

عملکرد اولیه هوش مصنوعی امیدوارکننده بود
پژوهشگران برای بررسی توانایی مدلهای زبانی بزرگ، فهرستهایی از کلمات رنگی را در اختیار آنها قرار دادند. در آزمونهای کوتاه که تنها شامل پنج کلمه بودند، نتایج بسیار امیدوارکننده به نظر میرسید. مدل GPT-4o توانست به دقت ۹۱ درصدی دست پیدا کند و Claude 3.5 Sonnet نیز عملکرد قابل قبولی از خود نشان داد. این نتایج اولیه نشان میداد که هوش مصنوعی قادر است دستورالعمل را دنبال کرده و معنای کلمات را نادیده بگیرد.
افت شدید دقت با افزایش حجم اطلاعات
اما با افزایش تعداد کلمات، شرایط بهطور چشمگیری تغییر کرد. دقت GPT-4o از ۹۱ درصد در فهرستهای پنجکلمهای به ۵۷ درصد در فهرستهای دهکلمهای کاهش یافت. زمانی که تعداد کلمات به ۴۰ مورد رسید، دقت این مدل تنها ۱۵ درصد بود. مدل Claude 3.5 Sonnet مقاومت بیشتری از خود نشان داد و تا فهرستهای ۲۰ کلمهای عملکرد نسبتاً پایداری داشت، اما در آزمون ۴۰ کلمهای دقت آن نیز به ۲۴ درصد سقوط کرد. الگوی مشابهی در GPT-5، Claude Opus 4.1 و Gemini 2.5 نیز مشاهده شد. جالبتر اینکه وقتی کلمات همخوان و ناهمخوان بهطور همزمان در یک فهرست قرار گرفتند، دقت مدلها در تشخیص موارد ناهمخوان تقریباً به صفر رسید.

تفاوت مهم میان مغز انسان و هوش مصنوعی
به گفته پژوهشگران، این نتایج نشان میدهد سازوکار توجه در مدلهای مبتنی بر معماری ترنسفورمر با سیستم توجه انسان تفاوت اساسی دارد. انسانها میتوانند در طول زمان هدف اصلی خود را حفظ کرده و پاسخهای خودکار را سرکوب کنند، اما مدلهای زبانی به تدریج به الگوی غالب خود بازمیگردند و به جای تمرکز بر رنگها، شروع به خواندن کلمات میکنند. این موضوع نشان میدهد که هوش مصنوعی هنوز در زمینههایی مانند تمرکز پایدار، کنترل پاسخهای خودکار و حفظ دستورالعملهای بلندمدت محدودیتهایی دارد.
اهمیت این یافتهها برای آینده هوش مصنوعی
اگرچه مدلهای هوش مصنوعی در سالهای اخیر پیشرفتهای چشمگیری داشتهاند، اما این مطالعه یادآوری میکند که عملکرد قدرتمند آنها لزوماً به معنای تفکر و پردازش مشابه انسان نیست. شناخت این نقاط ضعف میتواند به توسعه نسلهای آینده هوش مصنوعی کمک کند و درک دقیقتری از تواناییها و محدودیتهای این فناوری در اختیار پژوهشگران و کاربران قرار دهد.
منبع خبر: scitechdaily

شاهین آقامعلی


پاسخ :