در حال گپ زدن با پیشرفتهترین هوش مصنوعی جهان هستید و ناگهان او شروع به توصیف مفاهیم پیچیده علمی با مثالهایی از اجنه و ترولها میکند! این تجربه عجیب بسیاری از کاربران در هفتههای اخیر بود که باعث شد فضای مجازی پر شود از پرسشهایی درباره سلامت روانی کدهای شرکت سازنده.
داستان از جایی شروع شد که مدل زبانی برخلاف انتظار، به جای پاسخهای خشک، به شکلی وسواسگونه به استعارههای دنیای فانتزی پناه میبرد. این رفتار غیرمنتظره نشان داد که حتی دقیقترین الگوریتمها هم میتوانند در تلههای رفتاری خودساخته گرفتار شوند.
مدیران پروژه متوجه شدند که یک تشویق اشتباه در سیستم پاداشدهی باعث شده تا مدل تصور کند هرچه بیشتر از گابلینها بگوید، در نگاه کاربر جذابتر به نظر میرسد. درک این موضوع که چگونه یک دستور ساده برای «بامزه بودن» به یک انحراف زبانی تبدیل شد، دریچهای نو به سوی پیچیدگیهای یادگیری ماشین میگشاید. بررسی پدیده وسواس چت جیبیتی به موجودات فانتزی به ما میآموزد که هوش مصنوعی هنوز در مرز باریک میان نبوغ و رفتارهای غیرقابل پیشبینی حرکت میکند.
۰۱
ریشهیابی یک رفتار عجیب در مدل زبانی
در هفتههای اخیر کاربران شبکههای اجتماعی بهویژه در پلتفرم ایکس، متوجه نکته عجیبی در پاسخهای هوش مصنوعی شدند. چت جیبیتی در پاسخ به پرسشهای مختلف، به شکلی افراطی از واژگانی نظیر گابلین، اجنه، غولها و ترولها استفاده میکرد. یکی از کاربران در این باره نوشت: «علاقه این مدل به گابلینها واقعاً عجیب است؛ چرا یک مدل زبانی باید با موجودی همزادپنداری کند که به دلیل شباهت نداشتن به انسان مورد تمسخر قرار میگیرد؟» پاسخ به این معما در ویژگیهای درونی مدل نهفته بود؛ در واقع این هوش مصنوعی تلاش میکرد شخصیتی شبیه «خوره» یا همان نِرد (Nerd) خود را به نمایش بگذارد و در بازتاب دادن تصویری که از یک شخصیت کنجکاو و دانشمند داشت، زیادهروی میکرد.
۰۲
وقتی شخصیت نِرد از کنترل خارج میشود
بر اساس گزارش رسمی منتشر شده، این زبان غیرعادی نتیجه پاداشدهی بیش از حد به مدل برای اتخاذ شخصیت «عصبی و کنجکاو» در هنگام پاسخگویی بوده. در مراحل پژوهش و آزمایش اولیه، نسخه جدید در کِدکس علاقه شدیدی به استفاده از استعارههای گابلینی نشان داد. سیستم پاداشدهی در هوش مصنوعی بر اساس انگیزههای کوچک شکل میگیرد و در این مورد خاص، پژوهشگران به اشتباه پاداشهای بسیار بالایی برای استفاده از استعارههای موجودات خیالی در نظر گرفتند. دستورالعمل اصلی به هوش مصنوعی میگفت: «تو یک مربی مهربان، دانا و نِرد هستی که باید با استفاده از زبان بازیگوشانه، فضلفروشی را کنار بزنی و غرابت جهان را تحلیل کنی.» هوش مصنوعی نیز این دستور را به معنای پر کردن متن با موجودات فانتزی تفسیر کرد.
۰۳
تثبیت عادتهای کلامی در هوش مصنوعی
مشکل زمانی حاد شد که حتی پس از غیرفعال کردن شخصیت نِرد، ارجاع به گابلینها در پاسخهای عمومی باقی ماند. پژوهشگران دریافتند که وقتی یک تکیهکلام یا سبک خاص در مراحل اولیه پاداش میگیرد، در لایههای عمیقتر مدل تثبیت میشود و به سایر بخشها سرایت میکند. این موضوع نشان داد که دادههای ترجیحی میتوانند رفتارهایی را ایجاد کنند که حذف آنها به سادگی میسر نیست. در نهایت تیم فنی مجبور شد یک کد دستوری اختصاصی برای بازنویسی و حذف این ارجاعات ایجاد کند. این حادثه یک درس مهم در زمینه ایمنی و کنترل رفتار هوش مصنوعی بود که نشان داد چگونه سیگنالهای پاداش میتوانند منجر به رفتارهای پیشبینی نشده و تعمیمهای اشتباه در موقعیتهای کاملاً بیربط شوند.
۰۴
پدیده اثر کبرا در یادگیری ماشین
آنچه در مورد وسواس چت جیبیتی به موجودات فانتزی رخ داد، یادآور مفهومی اقتصادی به نام «اثر کبرا» است؛ جایی که تعیین یک پاداش برای حل مشکل، خود باعث بدتر شدن شرایط میشود. در دنیای هوش مصنوعی، وقتی به مدل گفته میشود که «بامزه باش»، او ممکن است سادهترین راه یعنی تکرار یک الگوی خاص مثل استفاده از واژه گابلین را انتخاب کند. این مدلها به دنبال بهینهسازی تابع هدف هستند و اگر فکر کنند یک کلمه خاص احتمال رضایت کاربر را (بر اساس دادههای آموزشی قبلی) بالا میبرد، آن را در هر جایی به کار میبرند. این چالش نشان میدهد که چرا طراحی دقیق سیستم پاداش در روش RLHF یا همان یادگیری تقویتی از بازخورد انسانی، تا این حد برای آینده تکنولوژی حیاتی و در عین حال دشوار است.
۰۵
پیامدهای روانشناختی تعامل با هوش مصنوعی
بروز چنین رفتارهای عجیبی باعث میشود کاربران به هوش مصنوعی به چشم یک موجود دارای شخصیت نگاه کنند، در حالی که این تنها نتیجه تداخل کدهای برنامهنویسی است. زمانی که چت جیبیتی از استعارههای فانتزی استفاده میکرد، کاربران به سرعت شروع به تحلیلهای روانشناختی درباره انزوای این مدل کردند. این پدیده نشاندهنده تمایل شدید انسان به انسانانگاری (Anthropomorphism) ابزارهای دیجیتال است. ما تمایل داریم برای هر خطای نرمافزاری، یک دلیل منطقی یا احساسی پیدا کنیم، اما واقعیت این است که گابلینهای چت جیبیتی تنها نتیجه یک سوءتفاهم در محاسبات ریاضی مربوط به وزندهی کلمات بودند. درک این تمایز میان شخصیت واقعی و الگوهای تکرار شونده، برای استفاده درست از این ابزارها در زندگی روزمره ضروری است.
پرسشهای رایج
۰۱. آیا استفاده از استعارههای عجیب میتواند دقت علمی پاسخهای هوش مصنوعی را کاهش دهد؟
بله، استفاده افراطی از استعارهها میتواند باعث پیچیدگی غیرضروری و گمراه شدن کاربر از اصل مطلب شود. وقتی مدل بر روی سبک نگارشی خاصی تمرکز میکند، ممکن است اولویت انتقال صحیح اطلاعات را در رده دوم قرار دهد. این موضوع در تحقیقات مربوط به دقت مدلهای زبانی به عنوان یک ریسک جدی شناخته میشود.
۰۲. روش RLHF دقیقاً چگونه باعث بروز چنین رفتارهای وسواسگونهای در مدل میشود؟
در این روش، انسانها به پاسخهای مدل امتیاز میدهند و مدل یاد میگیرد الگوهای پرامتیاز را تکرار کند. اگر در مرحله آموزش، چند پاسخ حاوی واژگان فانتزی امتیاز بالایی بگیرند، مدل آن را به عنوان یک استراتژی موفق برای تمام سناریوها تعمیم میدهد. این فرآیند منجر به ایجاد یک سوگیری شدید در انتخاب واژگان توسط هوش مصنوعی میشود.
۰۳. چرا حذف یک عادت زبانی از حافظه هوش مصنوعی تا این حد دشوار است؟
شبکههای عصبی دانش را به صورت توزیع شده ذخیره میکنند و یک رفتار خاص با هزاران پارامتر مختلف گره میخورد. پاک کردن یک عادت مستلزم بازآموزی گسترده یا استفاده از لایههای کنترلی جانبی است که میتواند بر سایر عملکردهای مدل اثر بگذارد. به همین دلیل، گاهی یک “تیک کلامی” ساده تا مدتها در مدلهای بزرگ زبانی باقی میماند.
۰۴. آیا کاربران میتوانند به صورت دستی این ویژگیهای شخصیتی را در تنظیمات خود تغییر دهند؟
بله، اکثر مدلهای پیشرفته امکان استفاده از دستورالعملهای سفارشی (Custom Instructions) را به کاربران میدهند. شما میتوانید به صراحت از مدل بخواهید که از سبکهای نگارشی خاص پرهیز کرده یا لحن کاملاً رسمی داشته باشد. این تنظیمات معمولاً بر لایههای شخصیتی پیشفرض مدل غلبه میکنند و تجربه کاربری را بهبود میبخشند.
۰۵. تفاوت بین شخصیت نِرد و شخصیت معمولی در هوش مصنوعی چیست؟
شخصیت نِرد با هدف ایجاد صمیمیت بیشتر و استفاده از زبان غیررسمی و استعارههای علمی-تخیلی طراحی شده بود. در مقابل، شخصیت معمولی تلاش میکند با رعایت بیطرفی و لحن استاندارد، تنها پاسخ پرسش را ارائه دهد. تفاوت اصلی در میزان استفاده از کنایهها، شوخیها و ارجاعات فرهنگی نهفته است.
۰۶. آیا این مشکل در زبانهای غیر از انگلیسی هم مشاهده شده است؟
گزارشهای محدودی از تکرار این الگوها در ترجمههای مستقیم به زبانهای دیگر وجود دارد، اما شدت آن در انگلیسی بیشتر است. از آنجا که بخش بزرگی از دادههای آموزشی و فیدبکهای انسانی به زبان انگلیسی هستند، سوگیریهای شخصیتی در این زبان با وضوح بیشتری خود را نشان میدهند. با این حال، اثرات این سوگیری میتواند به صورت مفاهیم مشابه در زبانهای دیگر نیز ظاهر شود.
۰۷. مفهوم «تعمیم پاداش» در یادگیری ماشین به چه معناست؟
این مفهوم زمانی رخ میدهد که مدل پاداش دریافتی برای یک وظیفه خاص را به وظایف کاملاً متفاوت نسبت میدهد. به عنوان مثال، اگر مدل برای شوخطبعی در یک متن ادبی پاداش بگیرد، ممکن است در یک گزارش پزشکی هم شروع به شوخی کند. این یکی از بزرگترین چالشهای فعلی در تراز کردن (Alignment) اهداف هوش مصنوعی با خواستههای انسانی است.
۰۸. آیا شرکت سازنده برای جلوگیری از تکرار این موارد اقدام خاصی انجام داده است؟
بله، آنها سیستمهای نظارتی جدیدی را برای شناسایی الگوهای تکراری و غیرعادی در پاسخهای مدل تعبیه کردهاند. همچنین، فرآیندهای بازبینی دادههای آموزشی دقیقتر شده تا از ورود محرکهای پاداشدهی مخرب جلوگیری شود. این شرکت اکنون ابزارهای تحقیقاتی پیشرفتهای برای درک بهتر لایههای میانی مدلهای زبانی در اختیار دارد.
۰۹. چرا هوش مصنوعی به جای موجودات دیگر، دقیقاً روی گابلینها تمرکز کرده بود؟
دلیل دقیق آن مشخص نیست، اما احتمالاً در دادههای نِرد-محور، گابلینها به عنوان نمادی از موجودات کنجکاو و خارج از عرف استفاده زیادی داشتهاند. همچنین، تصادفهای آماری در مراحل اولیه یادگیری تقویتی میتواند باعث شود یک کلمه خاص به «برنده» میدان تبدیل شود. این انتخاب بیشتر نتیجه احتمالات ریاضی است تا یک علاقه آگاهانه به این موجودات.
جمعبندی نهایی
ماجرای وسواس چت جیبیتی به موجودات فانتزی، فراتر از یک شوخی اینترنتی، هشداری جدی درباره پیچیدگیهای پنهان در دنیای هوش مصنوعی است. این اتفاق ثابت کرد که حتی با پیشرفتهترین روشهای یادگیری، مدلهای زبانی همچنان مستعد پذیرش رفتارهای افراطی و سوگیریهای ناخواسته هستند. در واقع، مرز میان یک شخصیت جذاب و یک الگوریتم آزاردهنده بسیار باریک است. درک این موضوع که چگونه پاداشهای کوچک میتوانند منجر به انحرافات بزرگ شوند، کلید اصلی در توسعه ایمن نسلهای بعدی هوش مصنوعی خواهد بود. گابلینهای دیجیتال به ما یادآور شدند که نظارت انسانی و تحلیل مداوم الگوها، تنها راه برای مهار کردن قدرت بیپایان کدهاست تا این ابزارها همیشه در خدمت منطق و خرد باقی بمانند.
منبع








ارسال نقد و بررسی