یک بعدازظهر پاییزی، زمانی که اخبار مربوط به هوش مصنوعی با سرعتی سرسامآور در فضای مجازی پخش میشد، برخی از دوستان قدیمی در یک کافه نشسته بودند و درباره آینده صحبت میکردند. یکی از آنها مشتاقانه گفت شاید تا دو سال دیگر ماشین هایی بسازیم که هم فکر ما باشد. دیگری با تردید سرش را تکان داد و گفت که این وعده ها عالی هستند اما هیچ کس دلیل واقعی برای اجرای واقعی آنها ارائه نکرده است. در همین حال، تلفن من با پیامی در مورد پیشبینی جدید یکی از مدیران فناوری درباره افزایش هوش مافوق بشری وزوز کرد. در آن لحظه به این فکر کردم که آیا این شور و شوق جمعی ریشه واقعی دارد یا فقط نتیجه برداشت های سطحی از قدرت مدل های زبانی است؟
اما محدودیت های مدل های زبانی برای دستیابی به هوش عمومی مصنوعی چیست؟
مدل های زبانی و فاصله آنها از هوش انسانی
مدیران شرکتهای بزرگ فناوری تصویری را ارائه میکنند که نشان میدهد هوش مافوق بشر تنها یک قدم کوچک است. از نظر آنها، مدل های زبان بزرگ یا LLM می توانند با مقیاس و قدرت پردازش بیشتر از مرزهای شناختی ما عبور کنند. اما تحلیل علمی موضوع نشان می دهد که این گفته با محدودیت های اساسی این مدل ها همخوانی ندارد. این مدلها اساساً با مقادیر زیادی از دادههای متنی آموزش داده میشوند و نتایجی را بر اساس پیشبینی توالی نشانهها ایجاد میکنند. اگرچه این فرآیند پیچیده است، اما از دیدگاه شناختی، فقط نوعی مدل سازی زبانی است. در مقابل، ذهن انسان شبکهای از سیستمهای ادراکی، حافظه سیال، استدلال فضایی، قضاوت، نظریه ذهن و قابلیتهای اندازهگیری متعددی دارد که هیچکدام مستقیماً از زبان سرچشمه نمیگیرد.
وقتی مدیران فناوری هوش مصنوعی را صرفاً با توسعه مدلهای زبانی یکی میدانند، شکاف بین ادعاها و واقعیتها آشکارتر میشود. چون حتی اگر مدلهای زبانی هنگام نوشتن یا پاسخگویی به طرز شگفتآوری خوب عمل کنند، این مهارتها تنها نشاندهنده توانایی آنها در بازتولید الگوهای زبانی است، نه ایجاد مفاهیم جدید. این نکته محور «محدودیتهای مدلهای زبانی برای دستیابی به هوش عمومی مصنوعی» است. ذهن انسان این توانایی را دارد که آزمایش کند، فرضیه بسازد، باورهایش را زیر پا بگذارد و نظریه های جدیدی درباره جهان شکل دهد. مدل زبانی جهان را تجربه نمی کند یا اشیاء فیزیکی را دستکاری نمی کند و آزمون و خطا برای آنها معنی ندارد.
رابطه زبان و اندیشه از دیدگاه عصب شناسی
بنجامین رایلی، نویسنده مقاله اصلی، توضیح میدهد که در دو دهه گذشته، عصبشناسی به وضوح نشان داده است که زبان و فکر سیستمهای جداگانهای در مغز هستند. اسکن های تصویربرداری تشدید مغناطیسی عملکردی نشان داده است فعالیت عصبی در شبکه هایی غیر از شبکه زبان هنگام حل مسائل ریاضی، پردازش روابط علی یا درک ذهن دیگران رخ می دهد. این یافته ها مستقیماً ادعای برخی از مدیران فناوری را که زبان را بستر اصلی تفکر معرفی می کنند، رد می کند.
کودکانی که هنوز زبان را یاد نگرفتهاند، اما عقل دارند، کنجکاو میشوند، قوانین ساده فیزیک را کشف میکنند و روابط علت و معلولی را درک میکنند. این واقعیت نشان می دهد که زبان ابزار ارتباط است نه منبع تفکر. حتی کسانی که به دلیل آسیب مغزی زبان خود را از دست می دهند می توانند بسیاری از عملکردهای شناختی را مدیریت کنند. این حقایق علمی مبنای مهمی برای بحث در مورد “محدودیت های مدل های زبانی برای دستیابی به هوش عمومی مصنوعی” فراهم می کند.
انسان ها از زبان برای انتقال محتوا، رجوع به اشیاء در جهان، تفسیر تجربیات و انتقال دانش به نسل های آینده استفاده می کنند. مدل زبان فقط ساختار خارجی خود زبان را تقلید می کند بدون اینکه هیچ تجربه ای پشت آن باشد. این تفاوت ساختاری به این معنی است که حتی مدل های بسیار بزرگ در مرز ارتباطات زبانی باقی می مانند و به سطح تفکر خودمختار نمی رسند.
زبان به عنوان وسیله ای برای انتقال دانش، نه به عنوان یک مربی.
محققان برجسته ای مانند اولینا فدورنکو و ادوارد گیبسون نشان داده اند که زبان به دلیل هزینه شناختی پایین و کارایی بالا به عنوان وسیله ای برای انتقال فکر تکامل یافته است. زبان کد کارآمدی است که امکان به اشتراک گذاشتن معنا را بین انسان ها فراهم می کند. این ویژگی باعث شده است که زبان به صورت فرهنگی از نسلی به نسل دیگر منتقل شود و ظرفیت شناختی ما را تقویت کند. اما زبان خود منبع اندیشه نیست.
نویسنده در ادامه خاطرنشان می کند که این واقعیت با فرضیه صنعت هوش مصنوعی در تضاد است. صنعت بر این باور است که مدل سازی گسترده زبان می تواند به طور خودکار به مدل سازی فکر منجر شود. اما شناخت انسان شبکه ای از مهارت هاست که هر یک نیازمند تعامل با جهان، دریافت بازخورد، درک زمان، استفاده از حافظه فعال و تشکیل دانش ساختاری است. هیچ یک از این ساختارها در مدل زبان وجود ندارد.
این بخش از مقاله به وضوح نشان می دهد که چرا گسترش مجموعه داده ها یا افزایش قدرت پردازش سرورها به هوش عمومی نمی رسد. از آنجایی که مدلهای زبانی فقط از لایه بیرونی زبان تقلید میکنند، توانایی عبور از مرزهای دادههای ورودی را ندارند و نمیتوانند نارضایتی فعال از الگوهای موجود و تولید الگوهای جدید را تجربه کنند. انسان ها مدل های ذهنی خود را اصلاح می کنند و به حوزه های معنایی جدیدی می رسند. مدلها صرفاً شبیهساز مدلهای موجود هستند.
بحران تکیه بر مقیاس و نقش بررسی ها در صنعت
در جای دیگری از مقاله، نویسنده به موجی از انتقاد در خود صنعت اشاره می کند. برخی از محققان، مانند برنده جایزه تورینگ، یان لیکان، به صراحت گفته اند که مدل های زبان، هر چقدر هم بزرگ باشند، نمی توانند جهان را درک کنند، عمل محور نیستند و حافظه پایداری ندارند. LeCun مفهوم مدل های جهانی را پیشنهاد کرد که سیستم هایی با توانایی درک ساختارهای فیزیکی، حافظه بلند مدت و توانایی برنامه ریزی اقدامات هستند. این رویکرد نشان می دهد که بخشی از صنعت نیز از محدودیت های مدل های زبان برای دستیابی به هوش عمومی مصنوعی آگاه شده است.
در ادامه، نویسنده به نظر گروهی از دانشمندان که تعریف جدیدی از هوش عمومی مصنوعی ارائه کرده اند، اشاره می کند. آنها هوش عمومی را صرفاً از طریق پاسخگویی زبانی اندازه گیری نمی کنند، بلکه ترکیبی از شاخص هایی مانند حافظه فعال، استدلال علّی، سرعت پردازش، دانش چند بعدی، بینایی، شنوایی و توانایی بازیابی حافظه را در نظر می گیرند. این تعریف جدید رویکرد تک عاملی را کنار گذاشته و هوش را شبکه ای از توانایی ها می داند.
اما نویسنده هشدار می دهد که حتی این مدل چند محوری مسیر مستقیمی را به هوش انسان ارائه نمی دهد. زیرا تعیین وزن نسبی هر توانایی، تعیین نحوه ترکیب آنها و تبدیل آن مجموعه به چیزی شبیه به ذهن انسان، کار بسیار پیچیده ای است. حتی اگر بتوانیم این قابلیت ها را در یک سیستم جمع آوری کنیم، باز هم نمی دانیم که آیا این ترکیب برای عبور سیستم از مرز اعتماد به داده ها و ایجاد پارادایم خلاقیت کافی است یا خیر.
جایگاه ناهماهنگی شناختی در نوآوری علمی و جایی که مدل های زبانی کوتاه می آیند
نویسنده در بخش پایانی مقاله به مفهوم تغییر پارادایم از دیدگاه توماس کوهن اشاره می کند. او می گوید بسیاری از پیشرفتهای علمی زمانی اتفاق میافتد که محققان از چارچوبهای موجود ناراضی میشوند و سؤالاتی را مطرح میکنند که در فضای قبلی نمیتوان به آنها پاسخ داد. این وضعیت با نوعی نارضایتی روانی همراه است که فرد را به شکستن محدودیت های فکری سوق می دهد.
در اینجا نویسنده بر آن تاکید دارد مدل های زبانی چنین نارضایتی را تجربه نمی کنند. این مدل ها مجموعه ای از الگوها هستند. آمار آنها کسانی هستند که بسته به داده های ورودی رفتار می کنند. آنها نمی توانند نتیجه بگیرند که داده های موجود برای درک جهان کافی نیست و باید مسیر جدیدی را ابداع کنند. حتی اگر بتوانند ترکیبات جدیدی ایجاد کنند، باز هم در فضای معانی قبلی گیر کرده و در دایره آنچه قبلاً ثبت شده می چرخند. این هسته محدودیت های مدل های زبانی در دستیابی به هوش عمومی مصنوعی است.
از دیدگاه نویسنده، ماشین ها می توانند داده ها را سازماندهی مجدد کنند اما نمی توانند نارضایتی معرفتی داشته باشند. چیزی که به دانشمندان امکان ساخت نظریه هایی مانند نسبیت یا مکانیک کوانتومی را می داد، صرفاً ترکیب داده ها نبود، بلکه عبور از آنها بود. این جهش مستلزم تجربه ذهنی، شهود، ناراحتی از شکست های مدل قبلی و پذیرش ریسک فکری است. مدل زبان شهود، تجربه و ریسک ندارد. این چیزی است که باعث آن می شود حتی اگر بهتر عمل کند، بیشتر سیستمی از استعاره های مرده است که فقط معانی موجود را بازنویسی می کند.
خلاصه نهایی
مدل های زبان بزرگ ابزارهایی هستند که ساختار زبان را تقلید می کنند اما توانایی ساختن معنا یا نظریه را ندارند. تحقیقات علوم اعصاب نشان می دهد که تفکر انسان از شبکه های غیر زبانی شکل گرفته است که در مدل های زبانی وجود ندارند. این ادعا که هوش مصنوعی عمومی تنها با مقیاس بندی مدل ها قابل دستیابی است، هیچ پشتوانه علمی ندارد. به همین دلیل، محدودیتهای مدلهای زبان در دستیابی به هوش عمومی مصنوعی یک سؤال اساسی برای درک آینده سیستمهای هوش مصنوعی است.
چشمه
❓ سوالات متداول
1. آیا مدل های زبانی می توانند بدون زبان به سطحی از هوش واقعی دست یابند؟
خیر، چون ساخت آن کاملا بر اساس زبان است و اگر زبان را حذف کنیم چیزی از مدل باقی نمی ماند. ذهن انسان دارای یک شبکه چند بعدی است، اما مدل زبانی تنها یک بعد را بازسازی می کند.
2. چرا عصب شناسی نقش زبان در تفکر را دست کم می گیرد؟
تصویربرداری رزونانس مغناطیسی عملکردی نشان میدهد که شبکههای حل مسئله، استدلال علّی و نظریهی ذهن مستقل از شبکه زبان فعال میشوند. این پدیده نشان می دهد که زبان وسیله انتقال است نه منبع اندیشه.
3. آیا گسترش مدل ها می تواند محدودیت ها را برطرف کند؟
افزایش مقیاس نتایج را روانتر میکند، اما توانایی مدل برای مدلسازی تجربه، ادراک یا ناهماهنگی شناختی را افزایش نمیدهد. بنابراین نقش آن در دستیابی به هوش عمومی بسیار محدود است.
4. مدل های جهان چه تفاوتی با مدل های زبان دارند؟
مدل های جهان از ساختارهای ادراکی، حافظه پایدار و توانایی برنامه ریزی اعمال استفاده می کنند. این ویژگی ها آنها را به شناخت کنش محور نزدیک می کند که در مدل های زبانی وجود ندارد.
5. چرا نویسنده از استعاره استعاره مرده استفاده می کند؟
زیرا مدل های زبان فقط الگوهای موجود را سازماندهی مجدد می کنند و نمی توانند از چارچوب داده های ورودی عبور کنند. آنها چیز جدیدی نمی آفرینند و در محدوده معانی گذشته باقی می مانند.





ارسال نقد و بررسی