پشت پرده هوش مصنوعی؛ آیا میلیون‌ها کتاب برای تولد کلاد قربانی شدند؟ | بازیگرها

پشت پرده هوش مصنوعی؛ آیا میلیون‌ها کتاب برای تولد کلاد قربانی شدند؟ | بازیگرها

تصور کنید سال‌ها وقت خود را صرف نوشتن رمان یا اثری پژوهشی کرده‌اید، به امید اینکه کلماتتان دنیای کسی را تغییر دهد؛ اما ناگهان متوجه می‌شوید که دسترنج شما، بدون اجازه و در سکوت کامل، توسط غول‌های سیلیکون‌ولی بلعیده شده تا یک مغز مصنوعی ساخته شود. این داستان تخیلی نیست؛ این واقعیتی است که امروز گریبان‌گیر صنعت نشر و دنیای هوش مصنوعی (AI) شده است. مدل‌های زبانی بزرگی مثل کلاد (Claude) یا چت‌جی‌پی‌تی برای اینکه بتوانند مثل یک انسان با شما حرف بزنند، به کوهی از داده‌های متنی نیاز داشتند و چه منبعی غنی‌تر از میلیون‌ها کتابی که در طول تاریخ نوشته شده است؟

بحث داغ کپی‌رایت و مالکیت معنوی، حالا از راهروهای دادگاه‌ها به تیتر اول رسانه‌های تکنولوژی رسیده است. ما در دورانی زندگی می‌کنیم که ماشین‌ها با سرعت نور از تجربیات انسانی ما می‌آموزند، اما سوال اساسی اینجاست: آیا این یک پیشرفت علمی بزرگ است یا بزرگ‌ترین سرقت ادبی تاریخ بشر؟

در این مقاله، بررسی می‌کنیم مدل‌های هوش مصنوعی واقعاً چگونه آموزش می‌بینند و چرا نویسندگان بزرگ دنیا، از این نبوغ مصنوعی وحشت‌زده هستند. از دیتابیس‌های مخفی کتاب‌ها تا چالش‌های اخلاقی که آینده محتوا را رقم می‌زنند، همگی در این واکاوی عمیق بررسی خواهند شد.

۱- دیتابیس‌های ممنوعه؛ خوراک اصلی مغزهای مصنوعی


دانستنی نایاب:
بسیاری از مدل‌های هوش مصنوعی روی مجموعه‌ای به نام Books3 آموزش دیده‌اند که شامل بیش از ۱۹۰ هزار کتاب قرصانی (Pirated) است و حالا به یکی از بزرگ‌ترین پرونده‌های حقوقی تاریخ تکنولوژی تبدیل شده است.

هوش مصنوعی برای یادگیری ساختار زبان، نیاز به متن‌های طولانی، منسجم و باکیفیت دارد. پست‌های شبکه‌های اجتماعی یا نظرات کاربران در فروم‌ها معمولاً پر از غلط‌های املایی و ساختارهای شکسته هستند؛ به همین دلیل، کتاب‌ها به معدن طلای توسعه‌دهندگان تبدیل شدند. کتاب‌ها حاوی پیچیده‌ترین استدلال‌های انسانی و دقیق‌ترین توصیف‌ها هستند. اما مشکل از جایی شروع شد که مشخص شد شرکت‌های بزرگ، از مجموعه‌های عظیمی استفاده کرده‌اند که حاوی نسخه‌های غیرقانونی و دارای حق نشر (Copyright) بوده‌اند.

استفاده از این داده‌ها بدون پرداخت حق‌الزحمه به نویسندگان، خشم گسترده‌ای را برانگیخته است. وقتی یک مدل زبانی می‌تواند سبک نویسندگی یک مؤلف خاص را تقلید کند، در واقع دارد از عصاره تفکر او علیه خودش استفاده می‌کند. این موضوع نه‌تنها یک بحث فنی، بلکه یک بحران اخلاقی در زمینه نحوه برخورد با مالکیت فکری (Intellectual Property) در عصر دیجیتال است. پژوهش‌های نوین نشان می‌دهند که بدون این کتاب‌ها، هوش مصنوعی هرگز نمی‌توانست به این سطح از شیوایی در بیان برسد.

۲- پارادوکس آموزش؛ یادگیری یا کپی‌برداری؟

توسعه‌دهندگان هوش مصنوعی معتقدند که مدل‌های آن‌ها «کپی» نمی‌کنند، بلکه «یاد می‌گیرند». آن‌ها ادعا می‌کنند که فرآیند آموزش مدل، مشابه مطالعه کردن یک انسان است. همان‌طور که ما با خواندن کتاب‌های مختلف، دانش کسب می‌کنیم و سپس با زبان خودمان حرف می‌زنیم، هوش مصنوعی هم الگوهای آماری (Statistical Patterns) را استخراج می‌کند. اما منتقدان می‌گویند تفاوت بزرگی میان مغز بیولوژیک انسان و یک ماشین وجود دارد که می‌تواند کل اینترنت را در چند روز ببلعد.

این پارادوکس باعث شده است که مرز بین «استفاده منصفانه» (Fair Use) و دست‌اندازی به حقوق دیگران بسیار باریک شود. اگر یک مدل زبانی بتواند خلاصه دقیق یک کتاب پولی را ارائه دهد یا شخصیت‌های آن را در یک داستان جدید به کار بگیرد، عملاً بازار فروش آن کتاب را تهدید کرده است. طبق تحقیقات در دست انجام، بسیاری از مدل‌ها قادرند بخش‌های بزرگی از متون آموزشی را کلمه به کلمه بازخوانی کنند، که این موضوع ادعای یادگیری صرف را زیر سوال می‌برد.

۳- جنگ در دادگاه‌ها؛ نویسندگان علیه سیلیکون‌ولی

در ماه‌های اخیر، موجی از شکایت‌های دسته جمعی از سوی نویسندگان مشهور علیه شرکت‌هایی مثل OpenAI و Anthropic به راه افتاده است. آن‌ها معتقدند که شرکت‌های تکنولوژی با استفاده از آثارشان، ثروت‌های میلیاردی خلق کرده‌اند بدون اینکه کوچک‌ترین سهمی به خالقان اصلی اثر بپردازند. این پرونده‌ها می‌توانند مسیر آینده هوش مصنوعی را برای همیشه تغییر دهند.

اگر دادگاه‌ها رای به نفع نویسندگان بدهند، شرکت‌های هوش مصنوعی مجبور خواهند شد تمام داده‌های آموزشی خود را پاکسازی کرده و یا مبالغ هنگفتی را بابت لایسنس (License) پرداخت کنند. این موضوع می‌تواند سرعت پیشرفت AI را به شدت کاهش دهد اما از سوی دیگر، عدالت را به صنعت محتوا بازمی‌گرداند. تقابل میان نوآوری لجام‌گسیخته و حقوق انسانی، یکی از پیچیده‌ترین گره‌های حقوقی قرن حاضر است که هنوز راه‌حل قطعی برای آن پیدا نشده است.

۴- آینده محتوا در عصر تسلط ماشین‌ها

سوال بزرگی که ذهن متفکران را درگیر کرده این است: اگر هوش مصنوعی تمام کتاب‌های موجود را بخواند و شروع به تولید محتوای انبوه کند، تکلیف خلاقیت انسانی چه می‌شود؟ ما با پدیده‌ای روبرو هستیم که در آن ماشین‌ها از تولیدات انسانی تغذیه می‌کنند تا جایگزین انسان‌ها شوند. این چرخه می‌تواند منجر به اشباع بازار از محتواهای بی‌روح و تکراری شود که فقط الگوهای قبلی را بازتولید می‌کنند.

با این حال، برخی از داروهای جدید فکری پیشنهاد می‌دهند که باید به جای تقابل، به سمت مدل‌های اشتراکی حرکت کرد. یعنی پلتفرم‌هایی ایجاد شود که در آن، هر بار که هوش مصنوعی از دانش یک نویسنده برای پاسخ دادن استفاده می‌کند، مبلغی به حساب او واریز شود. این مدل‌های جدید مالی می‌توانند انگیزه‌های نویسندگی را در عصر هوش مصنوعی زنده نگه دارند. تا آن زمان، ما در یک منطقه خاکستری و پر از ابهام قدم می‌زنیم که در آن هر کلیک و هر خط متن، ارزش امنیتی و اقتصادی پیدا کرده است.

۵- معمای دیتاست‌های سیاه؛ وقتی کتابخانه‌ها بلعیده می‌شوند


یک نکته کنجکاوی‌برانگیز:
بسیاری از دیتاسنترهای غول‌آسا که محل نگهداری این کتاب‌های دیجیتال هستند، روزانه معادل مصرف برق یک شهر کوچک را صرف پردازش و «فهم» متون انسانی می‌کنند.

در دنیای هوش مصنوعی، اصطلاحی به نام دیتای باکیفیت وجود دارد که کتاب‌ها در صدر آن قرار دارند. پادکست اخیر ورج‌کست فاش کرد که مجموعه‌هایی نظیر د پاپایل (The Pile) یا سایر دیتاست‌های عظیم، چگونه میلیون‌ها صفحه از کتب چاپی را به کدهای دیجیتال تبدیل کرده‌اند. مشکل اصلی اینجاست که بخش بزرگی از این داده‌ها از وب‌سایت‌های غیرقانونی جمع‌آوری شده‌اند. این یعنی مدل‌هایی مثل کلاد، نه‌تنها از دانش بشر، بلکه از نسخه‌هایی تغذیه کرده‌اند که حتی یک سنت هم بابت آن‌ها به ناشر یا نویسنده پرداخت نشده است.

این روند باعث ایجاد یک شکاف عمیق بین «اخلاق» و «پیشرفت» شده است. شرکت‌های توسعه‌دهنده مدعی هستند که بدون این داده‌های وسیع، هوش مصنوعی هرگز نمی‌توانست مفاهیم پیچیده‌ای مثل طنز، استعاره یا فلسفه را درک کند. اما نویسندگان بر این باورند که این یک استثمار مدرن است؛ جایی که ماشین از کلمات آن‌ها استفاده می‌کند تا در نهایت محتوایی تولید کند که رقیب مستقیم خود نویسنده در بازار کار باشد.

۶- مهندسی معکوس خلاقیت؛ آیا ماشین هم حس دارد؟

یکی از مباحث جذاب در تحلیل‌های نوین این است که هوش مصنوعی چگونه «سبک» (Style) یک نویسنده را یاد می‌گیرد. وقتی شما از کلاد می‌خواهید داستانی به سبک همینگوی بنویسد، ماشین در واقع هزاران الگوی تکرار شونده از جملات کوتاه و صریح او را از حافظه عظیم خود بیرون می‌کشد. این فرآیند که به آن همگام‌سازی عصبی (Neural Syncing) گفته می‌شود، در واقع نوعی شبیه‌سازی آماری است و نه یک الهام واقعی.

با این حال، نتیجه کار به قدری به واقعیت نزدیک است که بسیاری از کاربران تفاوت آن را متوجه نمی‌شوند. این موضوع خطری جدی برای اصالت هنر محسوب می‌شود. طبق پژوهش‌های نوین، اگر بازار از داستان‌های تولید شده توسط هوش مصنوعی اشباع شود، ذائقه مخاطب تغییر کرده و به تدریج آثار انسانی که دارای لایه‌های عمیق‌تر و غیرقابل پیش‌بینی هستند، به حاشیه رانده می‌شوند. ما در حال حرکت به سمتی هستیم که ماشین‌ها استاندارد جدیدی برای «خوب بودن» تعریف می‌کنند.

۷- نبرد برای شفافیت؛ غول‌های تکنولوژی چه چیزی را پنهان می‌کنند؟

شفافیت (Transparency) بزرگ‌ترین غایب این روزهای صنعت هوش مصنوعی است. اکثر شرکت‌های بزرگ از افشای لیست دقیق کتاب‌ها و منابعی که برای آموزش مدل‌های خود استفاده کرده‌اند، سر باز می‌زنند. آن‌ها این اطلاعات را جزو «اسرار تجاری» خود می‌دانند، اما منتقدان معتقدند این پنهان‌کاری برای فرار از عواقب حقوقی است. اگر ثابت شود که یک مدل به طور سیستماتیک از آثار دارای کپی‌رایت برای سودآوری استفاده کرده، جریمه‌های مالی می‌تواند کمرشکن باشد.

در تحقیقات در دست انجام، فشار نهادهای نظارتی بر این شرکت‌ها افزایش یافته است تا «کارت‌های گزارش دیتا» منتشر کنند. این کارت‌ها مشخص می‌کنند که چه درصدی از آموزش ماشین روی منابع آزاد و چه مقداری روی منابع محافظت‌شده بوده است. بدون این شفافیت، اعتماد عمومی به هوش مصنوعی خدشه‌دار می‌شود و این ابزار به جای اینکه دستیار انسان باشد، به عنوان یک رقیب متقلب شناخته خواهد شد.

۸- راهکارهای میانی؛ آیا صلح ممکن است؟

برخی از کارشناسان پیشنهاد می‌دهند که به جای جنگ‌های فرسایشی در دادگاه، باید به سمت مدل‌های لایسنسینگ هوشمند حرکت کنیم. در این مدل، شرکت‌های هوش مصنوعی بخشی از درآمد خود را به صندوق‌های حمایت از نویسندگان و هنرمندان واریز می‌کنند. این کار دقیقاً مشابه روشی است که پلتفرم‌های استریم موسیقی مثل اسپاتیفای با هنرمندان تعامل دارند. با این تفاوت که اینجا نه برای پخش اثر، بلکه برای «یادگیری» از اثر باید هزینه پرداخت شود.

ایجاد این سیستم‌های پرداخت خرد (Micropayments) می‌تواند انگیزه‌های نویسندگی را در دنیایی که ماشین‌ها با سرعت نور محتوا تولید می‌کنند، حفظ کند. اگر نویسندگان حس کنند که بخشی از پیشرفت تکنولوژی هستند و نه قربانی آن، همکاری‌های سازنده‌ای شکل خواهد گرفت. آینده محتوا نه در حذف ماشین و نه در نابودی نویسنده، بلکه در پیدا کردن یک نقطه تعادل اقتصادی جدید نهفته است که حق مالکیت فکری را به رسمیت بشناسد.

۹- بخش ویژه: نشت روح انسانی به کدهای سرد ماشین


آیا می‌دانستید؟
برخی مدل‌های هوش مصنوعی در پاسخ به سوالات فلسفی عمیق، جملاتی را تولید می‌کنند که دقیقاً با فرکانس فکری نویسندگانی که در دیتابیس آن‌ها بوده‌اند مطابقت دارد؛ گویی روح آن کتاب‌ها در کالبد کدها حل شده است.

یک زاویه دید کاملاً تازه که کمتر در محافل عمومی به آن اشاره می‌شود، پدیده نشت خلاقیت (Creative Leakage) است. وقتی ما میلیون‌ها کتاب را به خورد یک مدل زبانی می‌دهیم، فقط دانش آن‌ها را منتقل نمی‌کنیم؛ بلکه در حال انتقال سوگیری‌های فرهنگی، لحن‌های عاطفی و حتی «جهان‌بینی» نویسندگان هستیم. این یعنی هوش مصنوعی در حال تبدیل شدن به یک آینه تمام‌نما از تناقضات بشری است. ما با ماشینی روبرو هستیم که به دلیل خواندن بیش از حد آثار داستانی، گاهی تمایل به «خیال‌پردازی» یا همان توهم (Hallucination) دارد، چون مرز بین واقعیت و درام در دیتابیس‌های آموزشی آن از بین رفته است.

این نفوذ عمیق نشان می‌دهد که کتاب‌ها فراتر از دیتای متنی، حامل دی‌ان‌ای (DNA) تمدن ما هستند. اگر مدل‌های آینده را از این منابع محروم کنیم، احتمالاً با هوش مصنوعی‌هایی روبرو خواهیم شد که بسیار دقیق اما به شدت خشک و فاقد درک شهودی هستند. نبرد امروز بر سر کپی‌رایت، در واقع نبرد بر سر «انسانیتِ» نهفته در هوش مصنوعی است. آیا ما می‌خواهیم ماشین‌هایمان فقط محاسبه‌گر باشند یا می‌خواهیم آن‌ها بوی کتاب‌های کهنه و عمق رنج‌های بشری را هم بفهمند؟

سوالات متداول (Smart FAQ)

۱. آیا استفاده هوش مصنوعی از کتاب‌های من به معنای سرقت ادبی است؟

از نظر حقوقی، این موضوع هنوز در دادگاه‌ها در حال بررسی است و حکم قطعی صادر نشده است. نویسندگان آن را سرقت می‌دانند چون اثرشان بدون اجازه در آموزش (Training) استفاده شده است؛ در حالی که شرکت‌ها مدعی هستند این فرآیند مشابه مطالعه انسانی و مشمول قوانین استفاده منصفانه است.

۲. اگر ثابت شود هوش مصنوعی با کتاب‌های غیرقانونی آموزش دیده، چه اتفاقی می‌افتد؟

در صورت محکومیت، دادگاه ممکن است شرکت‌ها را به پرداخت جریمه‌های میلیاردی یا حتی حذف کامل مدل‌های زبانی (Machine Unlearning) مجبور کند. این سناریو می‌تواند باعث فروپاشی بسیاری از استارتاپ‌های فعلی شود که تمام دارایی‌شان بر پایه این داده‌های بحث‌برانگیز بنا شده است.

۳. آیا روش‌های نوینی برای جلوگیری از بلعیده شدن کتاب‌ها توسط هوش مصنوعی وجود دارد؟

پژوهشگران در حال کار روی پروتکل‌های جدیدی مثل اسپات‌لیست (Spawning) هستند که به هنرمندان اجازه می‌دهد آثارشان را از دیتابیس‌های آموزشی خارج کنند. طبق این تحقیقات در دست انجام، تکنولوژی‌های واترمارک دیجیتال نیز می‌توانند مانع از آن شوند که ربات‌های خزنده (Crawlers) متون را به راحتی استخراج کنند.

۴. چرا هوش مصنوعی نمی‌تواند فقط با مقالات اندلرن‌پدیا و اخبار آموزش ببیند؟

متون خبری و دانشنامه‌ای فاقد عمق روایی، شخصیت‌پردازی و استدلال‌های طولانی موجود در کتاب‌ها هستند. برای اینکه هوش مصنوعی بتواند یک رمان بنویسد یا منطق پیچیده انسانی را درک کند، چاره‌ای جز مطالعه کتاب‌های کلاسیک و مدرن ندارد. بدون کتاب، هوش مصنوعی در سطح یک ماشین پاسخگوی ساده باقی می‌ماند.

۵. آیا در آینده کتاب‌های نوشته شده توسط هوش مصنوعی هم کپی‌رایت خواهند داشت؟

در حال حاضر اداره کپی‌رایت در اکثر کشورها اعلام کرده که آثار تولید شده صرفاً توسط ماشین، قابل ثبت قانونی نیستند. با این حال، اگر دخالت انسانی در ویرایش و هدایت هوش مصنوعی قابل توجه باشد، ممکن است بخشی از حقوق به انسان تعلق بگیرد. این یکی از بزرگ‌ترین چالش‌های قانون‌گذاری در سال‌های پیش رو است.

۶. چطور بفهمم کتاب خاصی در دیتابیس آموزشی کلاد یا چت‌جی‌پی‌تی وجود دارد؟

یک روش ساده، پرسیدن جزئیات نایاب از فصل‌های میانی کتاب یا نقل‌قول‌های مستقیم است. اگر هوش مصنوعی بتواند با دقت بالا پاسخ دهد، به احتمال زیاد آن اثر در دیتابیس آموزشی او وجود داشته است. البته ابزارهای آنلاینی نیز برای جست‌وجوی آثار در دیتاست‌های شناخته شده در حال توسعه هستند.

۷. آیا هوش مصنوعی می‌تواند جایگزین نویسندگان خلاق شود؟

ماشین‌ها در بازتولید الگوهای قبلی بی‌نظیرند اما در خلق جرقه اول و تجربه زیسته انسانی ناتوان هستند. هوش مصنوعی می‌تواند ابزاری عالی برای نویسندگان باشد تا از بن‌بست‌های ذهنی خارج شوند، اما قلب تپنده یک اثر هنری همچنان وابسته به روح و رنج انسانی است. تا زمانی که ماشین‌ها زندگی نکنند، نمی‌توانند داستان زندگی را به درستی روایت کنند.

نتیجه‌گیری

پرونده جنجالی میلیون‌ها کتابی که برای تولد هوش مصنوعی‌های پیشرفته‌ای چون کلاد استفاده شدند، فراتر از یک بحث تکنولوژیک، آزمونی بزرگ برای اخلاق در قرن بیست و یکم است. ما در نقطه‌ای ایستاده‌ایم که باید بین سرعتِ نوآوری و احترام به خلاقیت انسانی، یکی را انتخاب کرده یا راه میانه‌ای بیابیم. غنی‌سازی هوش مصنوعی با آثار ادبی بشر، آن را به قدرتمندترین ابزار تاریخ تبدیل کرده است، اما این قدرت نباید به قیمت نابودی خالقان اصلی آن تمام شود. پیدا کردن یک مدل اقتصادی عادلانه برای لایسنسینگ آثار، کلید صلح میان سیلیکون‌ولی و دنیای نشر خواهد بود.

دیدگاه شما درباره این سرقت یا نبوغ مصنوعی چیست؟

آیا فکر می‌کنید هوش مصنوعی حق دارد از دانش کتاب‌ها برای یادگیری استفاده کند، یا باید برای هر کلمه هزینه پرداخت شود؟ اگر شما نویسنده بودید، با حضور آثارتان در ذهن یک ماشین موافقت می‌کردید؟ نظرات و تحلیل‌های خود را در بخش دیدگاه‌ها با ما به اشتراک بگذارید تا این بحث داغ را با هم ادامه دهیم.

پشت پرده هوش مصنوعی؛ آیا میلیون‌ها کتاب برای تولد کلاد قربانی شدند؟ | بازیگرها

دکتر علیرضا مجیدی

پزشک، نویسنده و بنیان‌گذار وبلاگ «بازیگرها»

دکتر علیرضا مجیدی، نویسنده و بنیان‌گذار وبلاگ «بازیگرها».
با بیش از ۲۰ سال نویسندگی «ترکیبی» مستمر در زمینهٔ پزشکی، فناوری، سینما، کتاب و فرهنگ.
باشد که با هم متفاوت بیاندیشیم!