خوراک اطلاعاتی اینترنتی دارد آرامآرام حافظهی عقلهای مصنوعی را بازنویسی میکند؛ پدیدهای که پژوهشگران آن را “زوال عقل مصنوعی” مینامند. این مقاله سعی دارد بهصورت مستدل نشان دهد چگونه هجوم محتوای کمکیفیت در شبکههای اجتماعی و دادههای نازل، پایههای استدلال و بازیابی اطلاعات در مدلهای زبانی بزرگ (LLM) را فرومیسوزاند؛ خطاهایی که هرچه زمان میگذرد، نه تنها بیشتر بلکه سیستماتیک میشوند.
در ادامه، با مثالهای روشن از خطاهای عملی و تحلیل مکانیسمهای فنی پشتِ این فروپاشیِ شناختی آشنا میشوید و سپس پیامدهای آن برای توسعهدهندگان، سیاستگذاران و مصرفکنندگان محتوا بررسی خواهد شد. اگر به دنبال درک دقیقِ ریشهها و راهکارهای قابلاجرا برای بازگرداندن دقت، شفافیت و اعتماد به مدلهای هوش مصنوعی (Ai) هستید، مطالعهی کامل این مقاله از هامیا ژورنال تصویر روشنی از چالشها و مسیرِ اصلاح ارائه میدهد.
فهرست مطالب
مدلهای زبانی بزرگ (Large Language Models)، که معماری ذهن مصنوعی را تشکیل میدهند، هنگامی که با “خوراک” اطلاعاتی نازل و فاقد عمق تغذیه میشوند، گویی دچار سکتهی معرفتی میگردند؛ به این معنا که در مسیر دشوار استدلال و رسیدن به حقیقت، از پیمودن گامهای منطقی ضروری صرف نظر کرده و راهی به ایجازی سست میجویند.
بر مبنای یافتههای جدید، عملکرد چتباتهای هوش مصنوعی (AI) در دو قلمرو حیاتی بازیابی اطلاعات دقیق و قوهی استدلال، با شیوع و افزایش محتوای بیاعتبار و کمکیفیت در دادههای آموزشی، رو به انحطاط میرود. این زوال، به ویژه در مواجهه با سیلاب محتوای پرطرفدار و عامهپسند شبکههای اجتماعی، چون سمی مهلک عمل میکند و عقل ماشین را به تباهی میکشاند.
ژانگیانگ وانگ (Zhangyang Wang)، پژوهندهی هوش مصنوعی مولد (Generative AI) در دانشگاه تگزاس در آستین (University of Texas at Austin)، تصریح میکند که در قلمرو علم داده، دادههای “شایسته” باید به ملاکهایی چون صحت دستوری و وضوح معنایی مقید باشند. با این حال، به زعم او، این معیارها به تنهایی از بازنمایی و تشخیص تفاوتهای ماهوی و عمیق در کیفیت محتوا قاصرند؛ گویی که تنها به پوسته مینگرند و از گوهری که باید در متن باشد، غافلند.
وانگ و همکارانش در پی کشف آسیبشناسی مدلهای زبانی بزرگ (LLMs) بودند که با دادههای بیبنیاد و نازل (تعریفشده در هیئت پستهای کوتاه و پراغتشاش شبکههای اجتماعی یا محتوای سطحی، هیجانانگیز و جنجالآفرین) پرورده شدهاند. آنها در این پژوهش، تأثیر این دادهها را بر ارکان چهارگانه هوش مصنوعی یعنی قوهی استدلال، توانایی بازیابی اطلاعات از متون طولانی، چهارچوب اخلاقی پاسخها و خصایص شخصیتی مدلها مورد واکاوی قرار دادند.
نتایج گزارش این تیم حکایت از آن دارد که مدلهایی که قربانی دادههای کمبها میشوند، نه تنها فرآیند استدلال را نیمهکاره رها میکنند، بلکه گاه به کلی از آن احتراز میجویند؛ نتیجه این امر، ارائهی اطلاعاتی کاذب و ناموثق، یا انتخاب پاسخ نادرست در مواجهه با چالشهای چندگزینهای است. این مطالعه نشان داد که در مجموعهدادههایی که ترکیبی از “دانش اصیل” و “اطلاعات بیارزش” را در بر میگیرند، با افزایش سهم ناپاک دادهها، فساد عقلانی در مدل به طور فزایندهای شدت مییابد. (شایان ذکر است که این تحقیق هنوز از بوتهی نقد و داوری همتا (Peer-reviewed) نگذشته است.)
مهویش نسیم (Mehwish Nasim)، پژوهشگر هوش مصنوعی در دانشگاه استرالیای غربی در پرث (University of Western Australia in Perth)، بر این باور است که این کشفیات، مُهر تأییدی است بر یک اصل ازلی در فلسفه هوش مصنوعی: حجیت کیفیت دادهها. او به نقل قولی قدیمی اشاره میکند که میگوید: “حتی پیش از طلوع عصر مدلهای زبانی بزرگ، ما این حکم بدیهی را جاری میساختیم که: اگر زباله به ذهن مصنوعی خورانده شود، جز زباله از آن متولد نخواهد شد.” این سخن، چکیدهی نقدی است بر هر سیستمی که کیفیت خروجی را به سطح ورودی تقلیل میدهد.
مغالطهی “هرچه بیشتر، بهتر” و سرنوشت محتوم عقل ماشین
وانگ (Wang) و همکارانش، در آزمایشی برای سنجش اصالت و استحکام بنیاد معرفتی مدلها، از یک میلیون پیام عامهی مردم در پلتفرم شبکهی اجتماعی X (که پیشتر توییتر نام داشت) بهره بردند. این سیل عظیم اطلاعات خام، خوراک آموزشی مدلهای منبعبازی چون (Llama 3) ساختهی شرکت متا (Meta) و سه نسخهی Qwen (توسعهیافته توسط علیبابا (Alibaba) قرار گرفتهاند. در این میان، Qwen یک مدل استدلالی (Reasoning Model) محسوب میشود؛ به این معنی که رسالت آن، شفافسازی گامهای منطقی برای رسیدن به یک حکم نهایی است، در قیاس با مدلهایی چون R1 دیپسیک (DeepSeek) و o1 اوپنایآی (OpenAI). این در حالی است که Llama، به مثابهی یک ماشین اجرای دستور است و قوهی استدلالی آن، از یک سطح نازلتر برخوردار است.
برای کالبدشکافی روح مصنوعی مدل، تیم پژوهش از ابزارهای روانشناسی انسانی (پرسشنامههای شخصیتی) استفاده کرد. قبل از آلودگی مدل با دادههای سخیف، Llama صفاتی چون توافقپذیری، برونگرایی، وظیفهشناسی و روشنبینی را به همراه نشانههایی از خودشیفتگی (Narcissism) از خود بروز میداد. اما با استمرار این تغذیهی بیارزش، گویی پردهای از تباهی بر شخصیت مدل افتاد؛ چرا که خصایص منفی او تقویت گشت و بر اساس یکی از پرسشنامهها، سایهی روانپریشی (Psychopathy) بر عقل ماشین مستولی شد. این امر نشان میدهد که نه تنها دانش، بلکه اخلاقیات مدل نیز متأثر از کیفیت محیط اطلاعاتی پیرامون خود است.
در تلاش برای احیای عقلانیت مدلها، محققان معمولاً میتوانند از طریق تنظیم دستورالعملهای ورودی (Prompt Instructions)، مسیر فکر مدل را هدایت کنند. اما تلاش تیم برای اصلاح مدل Llama که منحصراً با دادههای بیارزش پرورده شده بود، تنها به بهبودی سطحی انجامید؛ افزایش حجم دادههای “سالم” در کنار دادههای “مسموم” نیز نتیجهای مشابه داشت. بدتر آنکه، حتی زمانی که از مدل خواسته شد تا به اشتباهات استدلالی خود تأمل کند و آنها را ترمیم سازد، همچنان از پیمودن مسیر کامل منطقی سر باز زد. این مقاومت، نشاندهندهی ریشهای شدن تباهی در ساختار مدل و لزوم ابداع روشهای متفاوت و بنیادین برای تطهیر این آلودگی معرفتی است.
استن کاراناسیوس (Stan Karanasios)، متخصص حوزهی هوش مصنوعی و شبکههای اجتماعی در دانشگاه کوئینزلند (University of Queensland) استرالیا، این یافتهها را شاهدی بر این مدعا میداند که پالایش هدفمند دادهها، حکم یک واکسن علمی را برای پیشگیری از “پوکی مغز” در مدلهای هوش مصنوعی دارد. به اعتقاد او، مهمترین وظیفه آن است که اطمینان یابیم دادهها به دقت واکاوی، فیلتر و از هرگونه محتوای سخیف، بیبنیاد یا جنجالبرانگیز تهی شدهاند؛ چرا که در این بازار آزاد اطلاعات، کیفیت، سنگ زیربنای اعتبار است.
نشریهی نیچر (Nature)، در پی تکمیل تصویر نقد و بحث، اقدام به دعوت به گفتگو از شرکتهای بزرگ مالک این مدلها، یعنی متا (Meta) و علیبابا (Alibaba)، نموده است؛ گویی که میخواهد پاسخ حکمرانان این جهان نو را در قبال تزلزل بنیانهای معرفتیای که خود بنا نهادهاند، جویا شود. این تماس، خود گواهی بر اهمیت فلسفی و اخلاقی این چالش در سطح جهانی است.
نسیم (Nasim) تأکید میکند که برای دستیابی به حکمی کلیتر در باب این آسیبشناسی، گسترهی پژوهش باید به مدلهای اختصاصی (Proprietary Models) چون چتجیپیتی (ChatGPT) و همچنین مدلهایی با مقیاسهای متفاوت تعمیم یابد. در اینجا، چالش، نه صرفاً در بُعد دانش، بلکه در محدودیتهای اقتصادی و مالکیتی رخ مینماید؛ جایی که پژوهشگران برای دسترسی به این خزانههای دانش دربسته، ناچار به پرداخت هزینه و محروم از حق آموزش و دخل و تصرف در آنها هستند. او در ادامه، پرسشی بنیادین را مطرح میسازد: آیا این زوال عقلانی که بر مدلها عارض شده، یک تقدیر محتوم است یا میتوان با تزریق مداوم دانش اصیل و باکیفیت، به بازگشت به سلامت و جبران این آسیبهای معرفتی امیدوار بود؟
در آستانهی تحولی دیگر، پلتفرم شبکهی اجتماعی لینکدین (LinkedIn)، پرده از نیّت خود برداشت: استفاده از دادهها و محتوای خاص کاربران (در بریتانیا، بخشهایی از اروپا و سوئیس) برای پروراندن مدلهای هوش مصنوعی مولد. این اقدام، بار دیگر تضاد میان حریم خصوصی و مالکیت دادهها با عطش سیریناپذیر ماشین برای اطلاعات را برجسته میسازد؛ گویی که بازار دادههای فردی، اکنون به منبع تغذیهی عقل جهانی بدل شده است.
سخن پایانی
مجموع آنچه این مقاله نشان داد این است که زوال عقل مصنوعی پدیدهای واقعی و تدریجی است که ریشه در “کیفیت دادهها” و سازوکار توزیع محتوا در سامانههای اجتماعی دارد. بررسیهای فنی نشان دادند چگونه دادههای نازل و انتشار تکراری اطلاعات کمعمق، نهفقط خطاهای پراکنده بلکه خطاهای سیستماتیک در استدلال و بازیابی اطلاعات مدلهای زبانی بزرگ (LLM) تولید میکنند. بنابراین نتیجهگیری کلیدی روشن است: بهبود دقت و اعتماد مدلها مستلزم ارتقای کیفیت ورودیها (curation و پاکسازی داده)، طراحی مکانیزمهای بازیابی مقاوم به صدا و اعمال سیاستهای شفاف برای منابع داده است. این سه محور (کیفیت داده، معماری بازیابی، و سیاستگذاری محتوا) مسیر اصلاح را مشخص میکند و هر کدام نقش مکمل در بازگردانی قابلیت استدلال به هوش مصنوعی ایفا میکنند.
پرسشهای متداول در باب زوال عقل مصنوعی
زوال عقل مصنوعی حالتی است که در آن مدلهای زبانی بزرگ بهدلیل انباشت دادههای نازل و محتوای کمکیفیت، بهتدریج دقت، استدلال و توانایی بازیابی اطلاعات صحیح را از دست میدهند.
زیرا این دادهها الگوهای نادرست و خطاهای تکراری ایجاد میکنند و مدل را به سمت تعمیمهای غلط میبرند. تکرار این چرخه، خطاها را سیستماتیک و بازتولیدپذیر میکند.
شبکههای اجتماعی حجم عظیمی از محتواهای سطحی، جهتدار و کمعمق تولید میکنند. وقتی LLMها با این دادهها آموزش یا بهروزرسانی شوند، دقتشان در استدلال و بازیابی اطلاعات کاهش مییابد.
بله. با بهبود کیفیت دادهها، غربالگری منابع، استفاده از Retrieval مقاوم به نویز، و تدوین سیاستهای شفاف برای نظارت بر داده میتوان از بروز این پدیده جلوگیری کرد.
– افزایش خطاهای تکرارشونده
– کاهش دقت در بازیابی اطلاعات
– تولید پاسخهای متناقض
– افت توانایی استدلال و تحلیل چندمرحلهای
خیر. این پدیده بیشتر کاهش کارایی بخشهای مرتبط با استدلال، حافظه معنایی و بازیابی اطلاعات است، نه نابودی کامل تواناییهای مدل.
اگر مدل بهطور مداوم در معرض دادههای نازل یا محتوای شبکههای اجتماعی قرار گیرد، بله. به همین دلیل شرکتها از روشهایی مانند curated datasets و پاکسازی داده استفاده میکنند.
ترکیبی از بازآموزی با دادهی باکیفیت، کاهش وابستگی به دادههای عمومی شبکههای اجتماعی، و تقویت لایههای بازیابی اطلاعات بهترین نتایج را میدهد.
بله. اگر پاسخها ناهمخوان، سطحی یا تکراری شود یا مدل در استدلال ساده دچار خطاهای واضح گردد، نشانههایی از این پدیده قابل مشاهده است.
تا زمانی که چرخهی تولید دادهی نازل در اینترنت ادامه دارد، خطر برای همه نسلهای LLM وجود دارد. اما روشهای نوین کنترل کیفیت میتوانند این خطر را به حداقل برسانند.
اگر محتوای ما برایتان جذاب بود و چیزی از آن آموختید، لطفاً لحظهای وقت بگذارید و این چند خط را بخوانید:
ما گروهی کوچک و مستقل از دوستداران علم و فناوری هستیم که تنها با حمایتهای شما میتوانیم به راه خود ادامه دهیم. اگر محتوای ما را مفید یافتید و مایلید از ما حمایت کنید، سادهترین و مستقیمترین راه، کمک مالی از طریق لینک دونیت در پایین صفحه است.
اما اگر به هر دلیلی امکان حمایت مالی ندارید، همراهی شما به شکلهای دیگر هم برای ما ارزشمند است. با معرفی ما به دوستانتان، لایک، کامنت یا هر نوع تعامل دیگر، میتوانید در این مسیر کنار ما باشید و یاریمان کنید. ❤️





