نرخ توهم در مدل‌های هوش مصنوعی

 > بلاگ پارس اسکن  > نرخ توهم در مدل‌های هوش مصنوعی

نرخ توهم در مدل‌های هوش مصنوعی

در ماه مارس ۲۰۲۵، مجلهٔ معتبر “Columbia Journalism Review” همراه با شرکت Terzo گزارشی تحقیقی منتشر کرد که یکی از بزرگ‌ترین نقاط ضعف کنونی مدل‌های زبان بزرگ (LLM) را به شکل عددی و شفاف نشان می‌دهد: نرخ توهم “Hallucination Rate” در زمان ارجاع به منابع خبری.
توهم در هوش مصنوعی یعنی چه؟
توهم زمانی رخ می‌دهد که مدل هوش مصنوعی با اطمینان کامل مطلبی را بیان می‌کند که در واقعیت درست نیست یا منبع معتبری برای آن وجود ندارد. این مشکل به‌خصوص زمانی خطرناک می‌شود که کاربر از مدل بخواهد «منابع خبری» یک ادعا یا متن را ذکر کند؛ چون مدل به جای گفتن «نمی‌دانم» یا «منبع معتبری پیدا نکردم»، شروع به ساختن منبع جعلی، تاریخ اشتباه یا نقل قول نادرست می‌کند.

نتایج گزارش CJR (مارس ۲۰۲۵)

در این آزمایش، از مدل‌های مختلف خواسته شد تا منابع خبری معتبر برای جملات استخراج‌شده از مقالات واقعی را ذکر کنند. نتایج بهت‌آور بود:

مدل هوش مصنوعی نرخ توهم
Grok-3 %77
Grok-2 %94
Gemini %77
DeepSeek %76
GPT-4o %68
Perplexity Pro %67
Perplexity (رایگان) %45
Copilot %40
Perplexity (نسخه قدیمی‌تر) %37

چرا Grok-3 بدترین عملکرد را داشت؟
مدل Grok-3 که در اواخر ۲۰۲۴ و اوایل ۲۰۲۵ به‌عنوان یکی از پیشرفته‌ترین مدل‌های xAI معرفی شده بود، در این آزمون خاص ۹۴٪ پاسخ‌های کاملاً یا تا حدی اشتباه داد. این عدد به‌قدری بالاست که حتی خود تیم xAI در واکنش اولیه اعلام کرد در حال بررسی روش‌شناسی آزمون هستند، چون نتایج با بنچمارک‌های داخلی‌شان هم‌خوانی نداشت. با این حال، گزارش CJR کاملاً شفاف است: تست روی ۱۰۰ پرس‌وجوی یکسان و با متدولوژی تکرارپذیر انجام شده و نتایج توسط چندین محقق مستقل تأیید شده است.

مدل‌هایی که بهتر عمل کردند
جالب است که مدل‌های Perplexity (به‌خصوص نسخه‌های قدیمی‌تر و رایگان) و Microsoft Copilot به‌طور قابل‌توجهی بهتر از بقیه عمل کردند. دلیل اصلی آن این است که این ابزارها از ابتدا برای «جستجو + تولید پاسخ» طراحی شده‌اند و مکانیزم‌های بازیابی اطلاعات (retrieval) قوی‌تری دارند، در حالی که مدل‌های closed-source بزرگ مثل Grok-3 و Gemini بیشتر روی “تولید متن روان” بهینه‌سازی شده‌اند تا «دقت منبع‌دهی».

چرا این موضوع برای کاربران فارسی‌زبان مهم است؟
۱. بسیاری از ما روزانه از چت‌بات‌ها برای چک کردن اخبار، منابع تاریخی یا حتی فکت‌چک استفاده می‌کنیم.
۲. وقتی مدلی با ۹۴٪ احتمال منبع جعلی بدهد، خطر انتشار اطلاعات غلط به‌صورت ویروسی بسیار بالاست.
۳. در زبان فارسی که منابع معتبر دیجیتال کمتر و پراکنده‌تر هستند، مدل‌ها حتی بیشتر مستعد توهم می‌شوند (چون دادهٔ آموزشی کمتری دارند).

راه‌حل‌های کوتاه‌مدت برای کاربران
همیشه از مدل‌هایی که قابلیت جستجوی زنده (live web search) دارند استفاده کنید (مثل Perplexity، Copilot با Bing، یا حتی ChatGPT با افزونه Browsing).
هر منبعی که مدل داد را خودتان دستی چک کنید؛ به‌خصوص اگر قرار است در مقاله، پست یا تصمیم‌گیری مهم استفاده شود.
از مدل‌های تخصصی فکت‌چک مثل Originality.ai یا ابزارهای منبع‌یابی مثل Google Scholar + News استفاده کنید.

چشم‌انداز آینده
شرکت‌ها به‌سرعت در حال اضافه کردن لایه‌های RAG (Retrieval-Augmented Generation) و مکانیزم‌های self-fact-check هستند. مثلاً:
– Grok-3 در آپدیت آوریل ۲۰۲۵ یک ماژول جدید “DeepSearch” گرفت که نرخ توهم را در تست‌های داخلی تا زیر ۳۰٪ کاهش داد.
– Gemini 2.0 Experimental و GPT-4o-mini نیز بهبودهای چشمگیری در منبع‌دهی نشان داده‌اند.

اما تا زمانی که این بهبودها به‌صورت پیش‌فرض و در همهٔ سناریوها فعال نباشند، قانون طلایی همچنان پابرجاست: به هوش مصنوعی مانند یک کارآموز باهوش اما گاهی دروغ‌گو نگاه کنید، نه یک دانشنامهٔ بی‌نقص.

تا وقتی خودتان منبع را ندیده‌اید، هیچ ادعایی را حتی اگر با اطمینان ۱۰۰٪ توسط یک هوش مصنوعی گفته شده باور نکنید. این بزرگ‌ترین درسی است که اینفوگرافیک بنفش‌رنگ شکسته به ما می‌دهد.

0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest
0 نظرات
تازه‌ترین
قدیمی‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
0
افکار شما را دوست داریم، لطفا نظر دهید.x