آزمون استروپ ضعف پنهان مدل های هوش مصنوعی را فاش میکند

...

تحقیقات جدید نشان می‌دهد که برخی از پیشرفته‌ترین مدل‌های هوش مصنوعی جهان، از جمله GPT-5، Claude و Gemini، در حفظ تمرکز و پیروی از دستورالعمل‌های طولانی‌مدت با محدودیت‌هایی روبه‌رو هستند. پژوهشگران با استفاده از یک آزمایش روان‌شناسی مشهور به نام «آزمون استروپ» (Stroop Task) به بررسی نحوه پردازش اطلاعات توسط مدل‌های زبانی بزرگ (LLMs) پرداختند و نتایج جالبی به دست آوردند. این مطالعه که توسط تیمی به رهبری سوکتو پاتل انجام شد، نشان می‌دهد اگرچه هوش مصنوعی در بسیاری از وظایف پیچیده مانند تولید محتوا، برنامه‌نویسی و استدلال عملکرد فوق‌العاده‌ای دارد، اما ممکن است در حفظ تمرکز روی یک هدف مشخص در طول زمان دچار مشکل شود.

آزمون استروپ چیست؟

آزمون استروپ یکی از شناخته‌شده‌ترین آزمایش‌های روان‌شناسی شناختی است که برای سنجش توجه، تمرکز و کنترل ذهنی طراحی شده است. در این آزمایش، کلمات مربوط به رنگ‌ها مانند «قرمز» یا «آبی» با رنگ‌های مختلف نمایش داده می‌شوند. گاهی رنگ نوشته با معنای کلمه یکسان است؛ برای مثال کلمه «قرمز» با رنگ قرمز نمایش داده می‌شود. اما در برخی موارد، رنگ و معنا با یکدیگر تضاد دارند؛ مثلاً کلمه «قرمز» با رنگ آبی نوشته می‌شود. وظیفه شرکت‌کنندگان این است که رنگ نوشته را تشخیص دهند و معنای کلمه را نادیده بگیرند. برای انسان‌ها این کار نیازمند کنترل شناختی و تمرکز است، زیرا مغز به‌طور خودکار تمایل دارد ابتدا کلمه را بخواند. با این حال، بیشتر افراد حتی در آزمون‌های طولانی نیز می‌توانند تمرکز خود را حفظ کنند و پاسخ‌های دقیقی ارائه دهند.

 

آزمون استروپ

 

عملکرد اولیه هوش مصنوعی امیدوارکننده بود

پژوهشگران برای بررسی توانایی مدل‌های زبانی بزرگ، فهرست‌هایی از کلمات رنگی را در اختیار آن‌ها قرار دادند. در آزمون‌های کوتاه که تنها شامل پنج کلمه بودند، نتایج بسیار امیدوارکننده به نظر می‌رسید. مدل GPT-4o توانست به دقت ۹۱ درصدی دست پیدا کند و Claude 3.5 Sonnet نیز عملکرد قابل قبولی از خود نشان داد. این نتایج اولیه نشان می‌داد که هوش مصنوعی قادر است دستورالعمل را دنبال کرده و معنای کلمات را نادیده بگیرد.

افت شدید دقت با افزایش حجم اطلاعات

اما با افزایش تعداد کلمات، شرایط به‌طور چشمگیری تغییر کرد. دقت GPT-4o از ۹۱ درصد در فهرست‌های پنج‌کلمه‌ای به ۵۷ درصد در فهرست‌های ده‌کلمه‌ای کاهش یافت. زمانی که تعداد کلمات به ۴۰ مورد رسید، دقت این مدل تنها ۱۵ درصد بود. مدل Claude 3.5 Sonnet مقاومت بیشتری از خود نشان داد و تا فهرست‌های ۲۰ کلمه‌ای عملکرد نسبتاً پایداری داشت، اما در آزمون ۴۰ کلمه‌ای دقت آن نیز به ۲۴ درصد سقوط کرد. الگوی مشابهی در GPT-5، Claude Opus 4.1 و Gemini 2.5 نیز مشاهده شد. جالب‌تر اینکه وقتی کلمات همخوان و ناهمخوان به‌طور هم‌زمان در یک فهرست قرار گرفتند، دقت مدل‌ها در تشخیص موارد ناهمخوان تقریباً به صفر رسید.

 

آزمون استروپ

 

تفاوت مهم میان مغز انسان و هوش مصنوعی

به گفته پژوهشگران، این نتایج نشان می‌دهد سازوکار توجه در مدل‌های مبتنی بر معماری ترنسفورمر با سیستم توجه انسان تفاوت اساسی دارد. انسان‌ها می‌توانند در طول زمان هدف اصلی خود را حفظ کرده و پاسخ‌های خودکار را سرکوب کنند، اما مدل‌های زبانی به تدریج به الگوی غالب خود بازمی‌گردند و به جای تمرکز بر رنگ‌ها، شروع به خواندن کلمات می‌کنند. این موضوع نشان می‌دهد که هوش مصنوعی هنوز در زمینه‌هایی مانند تمرکز پایدار، کنترل پاسخ‌های خودکار و حفظ دستورالعمل‌های بلندمدت محدودیت‌هایی دارد.

اهمیت این یافته‌ها برای آینده هوش مصنوعی

اگرچه مدل‌های هوش مصنوعی در سال‌های اخیر پیشرفت‌های چشمگیری داشته‌اند، اما این مطالعه یادآوری می‌کند که عملکرد قدرتمند آن‌ها لزوماً به معنای تفکر و پردازش مشابه انسان نیست. شناخت این نقاط ضعف می‌تواند به توسعه نسل‌های آینده هوش مصنوعی کمک کند و درک دقیق‌تری از توانایی‌ها و محدودیت‌های این فناوری در اختیار پژوهشگران و کاربران قرار دهد.

منبع خبر: scitechdaily

نظرات 0

wave

ارسال نظر

wave
برای ثبت نظر ابتدا وارد حساب کاربری خود شوید. ورود | ثبت نام

در آرتیجنس دنبال چی میگردی؟