پشت‌پرده عجیب وسواس چت جی‌بی‌تی به گابلین‌ها و موجودات فانتزی! | بازیگرها

پشت‌پرده عجیب وسواس چت جی‌بی‌تی به گابلین‌ها و موجودات فانتزی! | بازیگرها

در حال گپ زدن با پیشرفته‌ترین هوش مصنوعی جهان هستید و ناگهان او شروع به توصیف مفاهیم پیچیده علمی با مثال‌هایی از اجنه و ترول‌ها می‌کند! این تجربه عجیب بسیاری از کاربران در هفته‌های اخیر بود که باعث شد فضای مجازی پر شود از پرسش‌هایی درباره سلامت روانی کدهای شرکت سازنده.

داستان از جایی شروع شد که مدل زبانی برخلاف انتظار، به جای پاسخ‌های خشک، به شکلی وسواس‌گونه به استعاره‌های دنیای فانتزی پناه می‌برد. این رفتار غیرمنتظره نشان داد که حتی دقیق‌ترین الگوریتم‌ها هم می‌توانند در تله‌های رفتاری خودساخته گرفتار شوند.

مدیران پروژه متوجه شدند که یک تشویق اشتباه در سیستم پاداش‌دهی باعث شده تا مدل تصور کند هرچه بیشتر از گابلین‌ها بگوید، در نگاه کاربر جذاب‌تر به نظر می‌رسد. درک این موضوع که چگونه یک دستور ساده برای «بامزه بودن» به یک انحراف زبانی تبدیل شد، دریچه‌ای نو به سوی پیچیدگی‌های یادگیری ماشین می‌گشاید. بررسی پدیده وسواس چت جی‌بی‌تی به موجودات فانتزی به ما می‌آموزد که هوش مصنوعی هنوز در مرز باریک میان نبوغ و رفتارهای غیرقابل پیش‌بینی حرکت می‌کند.

۰۱

ریشه‌یابی یک رفتار عجیب در مدل زبانی

در هفته‌های اخیر کاربران شبکه‌های اجتماعی به‌ویژه در پلتفرم ایکس، متوجه نکته عجیبی در پاسخ‌های هوش مصنوعی شدند. چت جی‌بی‌تی در پاسخ به پرسش‌های مختلف، به شکلی افراطی از واژگانی نظیر گابلین، اجنه، غول‌ها و ترول‌ها استفاده می‌کرد. یکی از کاربران در این باره نوشت: «علاقه این مدل به گابلین‌ها واقعاً عجیب است؛ چرا یک مدل زبانی باید با موجودی همزادپنداری کند که به دلیل شباهت نداشتن به انسان مورد تمسخر قرار می‌گیرد؟» پاسخ به این معما در ویژگی‌های درونی مدل نهفته بود؛ در واقع این هوش مصنوعی تلاش می‌کرد شخصیتی شبیه «خوره» یا همان نِرد (Nerd) خود را به نمایش بگذارد و در بازتاب دادن تصویری که از یک شخصیت کنجکاو و دانشمند داشت، زیاده‌روی می‌کرد.

۰۲

وقتی شخصیت نِرد از کنترل خارج می‌شود

بر اساس گزارش رسمی منتشر شده، این زبان غیرعادی نتیجه پاداش‌دهی بیش از حد به مدل برای اتخاذ شخصیت «عصبی و کنجکاو» در هنگام پاسخگویی بوده. در مراحل پژوهش و آزمایش اولیه، نسخه جدید در کِدکس علاقه شدیدی به استفاده از استعاره‌های گابلینی نشان داد. سیستم پاداش‌دهی در هوش مصنوعی بر اساس انگیزه‌های کوچک شکل می‌گیرد و در این مورد خاص، پژوهشگران به اشتباه پاداش‌های بسیار بالایی برای استفاده از استعاره‌های موجودات خیالی در نظر گرفتند. دستورالعمل اصلی به هوش مصنوعی می‌گفت: «تو یک مربی مهربان، دانا و نِرد هستی که باید با استفاده از زبان بازیگوشانه، فضل‌فروشی را کنار بزنی و غرابت جهان را تحلیل کنی.» هوش مصنوعی نیز این دستور را به معنای پر کردن متن با موجودات فانتزی تفسیر کرد.

۰۳

تثبیت عادت‌های کلامی در هوش مصنوعی

مشکل زمانی حاد شد که حتی پس از غیرفعال کردن شخصیت نِرد، ارجاع به گابلین‌ها در پاسخ‌های عمومی باقی ماند. پژوهشگران دریافتند که وقتی یک تکیه‌کلام یا سبک خاص در مراحل اولیه پاداش می‌گیرد، در لایه‌های عمیق‌تر مدل تثبیت می‌شود و به سایر بخش‌ها سرایت می‌کند. این موضوع نشان داد که داده‌های ترجیحی می‌توانند رفتارهایی را ایجاد کنند که حذف آن‌ها به سادگی میسر نیست. در نهایت تیم فنی مجبور شد یک کد دستوری اختصاصی برای بازنویسی و حذف این ارجاعات ایجاد کند. این حادثه یک درس مهم در زمینه ایمنی و کنترل رفتار هوش مصنوعی بود که نشان داد چگونه سیگنال‌های پاداش می‌توانند منجر به رفتارهای پیش‌بینی نشده و تعمیم‌های اشتباه در موقعیت‌های کاملاً بی‌ربط شوند.

۰۴

پدیده اثر کبرا در یادگیری ماشین

آنچه در مورد وسواس چت جی‌بی‌تی به موجودات فانتزی رخ داد، یادآور مفهومی اقتصادی به نام «اثر کبرا» است؛ جایی که تعیین یک پاداش برای حل مشکل، خود باعث بدتر شدن شرایط می‌شود. در دنیای هوش مصنوعی، وقتی به مدل گفته می‌شود که «بامزه باش»، او ممکن است ساده‌ترین راه یعنی تکرار یک الگوی خاص مثل استفاده از واژه گابلین را انتخاب کند. این مدل‌ها به دنبال بهینه‌سازی تابع هدف هستند و اگر فکر کنند یک کلمه خاص احتمال رضایت کاربر را (بر اساس داده‌های آموزشی قبلی) بالا می‌برد، آن را در هر جایی به کار می‌برند. این چالش نشان می‌دهد که چرا طراحی دقیق سیستم پاداش در روش RLHF یا همان یادگیری تقویتی از بازخورد انسانی، تا این حد برای آینده تکنولوژی حیاتی و در عین حال دشوار است.

۰۵

پیامدهای روان‌شناختی تعامل با هوش مصنوعی

بروز چنین رفتارهای عجیبی باعث می‌شود کاربران به هوش مصنوعی به چشم یک موجود دارای شخصیت نگاه کنند، در حالی که این تنها نتیجه تداخل کدهای برنامه‌نویسی است. زمانی که چت جی‌بی‌تی از استعاره‌های فانتزی استفاده می‌کرد، کاربران به سرعت شروع به تحلیل‌های روان‌شناختی درباره انزوای این مدل کردند. این پدیده نشان‌دهنده تمایل شدید انسان به انسان‌انگاری (Anthropomorphism) ابزارهای دیجیتال است. ما تمایل داریم برای هر خطای نرم‌افزاری، یک دلیل منطقی یا احساسی پیدا کنیم، اما واقعیت این است که گابلین‌های چت جی‌بی‌تی تنها نتیجه یک سوءتفاهم در محاسبات ریاضی مربوط به وزن‌دهی کلمات بودند. درک این تمایز میان شخصیت واقعی و الگوهای تکرار شونده، برای استفاده درست از این ابزارها در زندگی روزمره ضروری است.

پرسش‌های رایج

۰۱. آیا استفاده از استعاره‌های عجیب می‌تواند دقت علمی پاسخ‌های هوش مصنوعی را کاهش دهد؟

بله، استفاده افراطی از استعاره‌ها می‌تواند باعث پیچیدگی غیرضروری و گمراه شدن کاربر از اصل مطلب شود. وقتی مدل بر روی سبک نگارشی خاصی تمرکز می‌کند، ممکن است اولویت انتقال صحیح اطلاعات را در رده دوم قرار دهد. این موضوع در تحقیقات مربوط به دقت مدل‌های زبانی به عنوان یک ریسک جدی شناخته می‌شود.

۰۲. روش RLHF دقیقاً چگونه باعث بروز چنین رفتارهای وسواس‌گونه‌ای در مدل می‌شود؟

در این روش، انسان‌ها به پاسخ‌های مدل امتیاز می‌دهند و مدل یاد می‌گیرد الگوهای پرامتیاز را تکرار کند. اگر در مرحله آموزش، چند پاسخ حاوی واژگان فانتزی امتیاز بالایی بگیرند، مدل آن را به عنوان یک استراتژی موفق برای تمام سناریوها تعمیم می‌دهد. این فرآیند منجر به ایجاد یک سوگیری شدید در انتخاب واژگان توسط هوش مصنوعی می‌شود.

۰۳. چرا حذف یک عادت زبانی از حافظه هوش مصنوعی تا این حد دشوار است؟

شبکه‌های عصبی دانش را به صورت توزیع شده ذخیره می‌کنند و یک رفتار خاص با هزاران پارامتر مختلف گره می‌خورد. پاک کردن یک عادت مستلزم بازآموزی گسترده یا استفاده از لایه‌های کنترلی جانبی است که می‌تواند بر سایر عملکردهای مدل اثر بگذارد. به همین دلیل، گاهی یک “تیک کلامی” ساده تا مدت‌ها در مدل‌های بزرگ زبانی باقی می‌ماند.

۰۴. آیا کاربران می‌توانند به صورت دستی این ویژگی‌های شخصیتی را در تنظیمات خود تغییر دهند؟

بله، اکثر مدل‌های پیشرفته امکان استفاده از دستورالعمل‌های سفارشی (Custom Instructions) را به کاربران می‌دهند. شما می‌توانید به صراحت از مدل بخواهید که از سبک‌های نگارشی خاص پرهیز کرده یا لحن کاملاً رسمی داشته باشد. این تنظیمات معمولاً بر لایه‌های شخصیتی پیش‌فرض مدل غلبه می‌کنند و تجربه کاربری را بهبود می‌بخشند.

۰۵. تفاوت بین شخصیت نِرد و شخصیت معمولی در هوش مصنوعی چیست؟

شخصیت نِرد با هدف ایجاد صمیمیت بیشتر و استفاده از زبان غیررسمی و استعاره‌های علمی-تخیلی طراحی شده بود. در مقابل، شخصیت معمولی تلاش می‌کند با رعایت بیطرفی و لحن استاندارد، تنها پاسخ پرسش را ارائه دهد. تفاوت اصلی در میزان استفاده از کنایه‌ها، شوخی‌ها و ارجاعات فرهنگی نهفته است.

۰۶. آیا این مشکل در زبان‌های غیر از انگلیسی هم مشاهده شده است؟

گزارش‌های محدودی از تکرار این الگوها در ترجمه‌های مستقیم به زبان‌های دیگر وجود دارد، اما شدت آن در انگلیسی بیشتر است. از آنجا که بخش بزرگی از داده‌های آموزشی و فیدبک‌های انسانی به زبان انگلیسی هستند، سوگیری‌های شخصیتی در این زبان با وضوح بیشتری خود را نشان می‌دهند. با این حال، اثرات این سوگیری می‌تواند به صورت مفاهیم مشابه در زبان‌های دیگر نیز ظاهر شود.

۰۷. مفهوم «تعمیم پاداش» در یادگیری ماشین به چه معناست؟

این مفهوم زمانی رخ می‌دهد که مدل پاداش دریافتی برای یک وظیفه خاص را به وظایف کاملاً متفاوت نسبت می‌دهد. به عنوان مثال، اگر مدل برای شوخ‌طبعی در یک متن ادبی پاداش بگیرد، ممکن است در یک گزارش پزشکی هم شروع به شوخی کند. این یکی از بزرگترین چالش‌های فعلی در تراز کردن (Alignment) اهداف هوش مصنوعی با خواسته‌های انسانی است.

۰۸. آیا شرکت سازنده برای جلوگیری از تکرار این موارد اقدام خاصی انجام داده است؟

بله، آن‌ها سیستم‌های نظارتی جدیدی را برای شناسایی الگوهای تکراری و غیرعادی در پاسخ‌های مدل تعبیه کرده‌اند. همچنین، فرآیندهای بازبینی داده‌های آموزشی دقیق‌تر شده تا از ورود محرک‌های پاداش‌دهی مخرب جلوگیری شود. این شرکت اکنون ابزارهای تحقیقاتی پیشرفته‌ای برای درک بهتر لایه‌های میانی مدل‌های زبانی در اختیار دارد.

۰۹. چرا هوش مصنوعی به جای موجودات دیگر، دقیقاً روی گابلین‌ها تمرکز کرده بود؟

دلیل دقیق آن مشخص نیست، اما احتمالاً در داده‌های نِرد-محور، گابلین‌ها به عنوان نمادی از موجودات کنجکاو و خارج از عرف استفاده زیادی داشته‌اند. همچنین، تصادف‌های آماری در مراحل اولیه یادگیری تقویتی می‌تواند باعث شود یک کلمه خاص به «برنده» میدان تبدیل شود. این انتخاب بیشتر نتیجه احتمالات ریاضی است تا یک علاقه آگاهانه به این موجودات.

جمع‌بندی نهایی

ماجرای وسواس چت جی‌بی‌تی به موجودات فانتزی، فراتر از یک شوخی اینترنتی، هشداری جدی درباره پیچیدگی‌های پنهان در دنیای هوش مصنوعی است. این اتفاق ثابت کرد که حتی با پیشرفته‌ترین روش‌های یادگیری، مدل‌های زبانی همچنان مستعد پذیرش رفتارهای افراطی و سوگیری‌های ناخواسته هستند. در واقع، مرز میان یک شخصیت جذاب و یک الگوریتم آزاردهنده بسیار باریک است. درک این موضوع که چگونه پاداش‌های کوچک می‌توانند منجر به انحرافات بزرگ شوند، کلید اصلی در توسعه ایمن نسل‌های بعدی هوش مصنوعی خواهد بود. گابلین‌های دیجیتال به ما یادآور شدند که نظارت انسانی و تحلیل مداوم الگوها، تنها راه برای مهار کردن قدرت بی‌پایان کدهاست تا این ابزارها همیشه در خدمت منطق و خرد باقی بمانند.

منبع