نرخ توهم در مدلهای هوش مصنوعی
در ماه مارس ۲۰۲۵، مجلهٔ معتبر “Columbia Journalism Review” همراه با شرکت Terzo گزارشی تحقیقی منتشر کرد که یکی از بزرگترین نقاط ضعف کنونی مدلهای زبان بزرگ (LLM) را به شکل عددی و شفاف نشان میدهد: نرخ توهم “Hallucination Rate” در زمان ارجاع به منابع خبری.
توهم در هوش مصنوعی یعنی چه؟
توهم زمانی رخ میدهد که مدل هوش مصنوعی با اطمینان کامل مطلبی را بیان میکند که در واقعیت درست نیست یا منبع معتبری برای آن وجود ندارد. این مشکل بهخصوص زمانی خطرناک میشود که کاربر از مدل بخواهد «منابع خبری» یک ادعا یا متن را ذکر کند؛ چون مدل به جای گفتن «نمیدانم» یا «منبع معتبری پیدا نکردم»، شروع به ساختن منبع جعلی، تاریخ اشتباه یا نقل قول نادرست میکند.
نتایج گزارش CJR (مارس ۲۰۲۵)
در این آزمایش، از مدلهای مختلف خواسته شد تا منابع خبری معتبر برای جملات استخراجشده از مقالات واقعی را ذکر کنند. نتایج بهتآور بود:
| مدل هوش مصنوعی | نرخ توهم |
| Grok-3 | %77 |
| Grok-2 | %94 |
| Gemini | %77 |
| DeepSeek | %76 |
| GPT-4o | %68 |
| Perplexity Pro | %67 |
| Perplexity (رایگان) | %45 |
| Copilot | %40 |
| Perplexity (نسخه قدیمیتر) | %37 |
چرا Grok-3 بدترین عملکرد را داشت؟
مدل Grok-3 که در اواخر ۲۰۲۴ و اوایل ۲۰۲۵ بهعنوان یکی از پیشرفتهترین مدلهای xAI معرفی شده بود، در این آزمون خاص ۹۴٪ پاسخهای کاملاً یا تا حدی اشتباه داد. این عدد بهقدری بالاست که حتی خود تیم xAI در واکنش اولیه اعلام کرد در حال بررسی روششناسی آزمون هستند، چون نتایج با بنچمارکهای داخلیشان همخوانی نداشت. با این حال، گزارش CJR کاملاً شفاف است: تست روی ۱۰۰ پرسوجوی یکسان و با متدولوژی تکرارپذیر انجام شده و نتایج توسط چندین محقق مستقل تأیید شده است.
مدلهایی که بهتر عمل کردند
جالب است که مدلهای Perplexity (بهخصوص نسخههای قدیمیتر و رایگان) و Microsoft Copilot بهطور قابلتوجهی بهتر از بقیه عمل کردند. دلیل اصلی آن این است که این ابزارها از ابتدا برای «جستجو + تولید پاسخ» طراحی شدهاند و مکانیزمهای بازیابی اطلاعات (retrieval) قویتری دارند، در حالی که مدلهای closed-source بزرگ مثل Grok-3 و Gemini بیشتر روی “تولید متن روان” بهینهسازی شدهاند تا «دقت منبعدهی».
چرا این موضوع برای کاربران فارسیزبان مهم است؟
۱. بسیاری از ما روزانه از چتباتها برای چک کردن اخبار، منابع تاریخی یا حتی فکتچک استفاده میکنیم.
۲. وقتی مدلی با ۹۴٪ احتمال منبع جعلی بدهد، خطر انتشار اطلاعات غلط بهصورت ویروسی بسیار بالاست.
۳. در زبان فارسی که منابع معتبر دیجیتال کمتر و پراکندهتر هستند، مدلها حتی بیشتر مستعد توهم میشوند (چون دادهٔ آموزشی کمتری دارند).
راهحلهای کوتاهمدت برای کاربران
همیشه از مدلهایی که قابلیت جستجوی زنده (live web search) دارند استفاده کنید (مثل Perplexity، Copilot با Bing، یا حتی ChatGPT با افزونه Browsing).
هر منبعی که مدل داد را خودتان دستی چک کنید؛ بهخصوص اگر قرار است در مقاله، پست یا تصمیمگیری مهم استفاده شود.
از مدلهای تخصصی فکتچک مثل Originality.ai یا ابزارهای منبعیابی مثل Google Scholar + News استفاده کنید.
چشمانداز آینده
شرکتها بهسرعت در حال اضافه کردن لایههای RAG (Retrieval-Augmented Generation) و مکانیزمهای self-fact-check هستند. مثلاً:
– Grok-3 در آپدیت آوریل ۲۰۲۵ یک ماژول جدید “DeepSearch” گرفت که نرخ توهم را در تستهای داخلی تا زیر ۳۰٪ کاهش داد.
– Gemini 2.0 Experimental و GPT-4o-mini نیز بهبودهای چشمگیری در منبعدهی نشان دادهاند.
اما تا زمانی که این بهبودها بهصورت پیشفرض و در همهٔ سناریوها فعال نباشند، قانون طلایی همچنان پابرجاست: به هوش مصنوعی مانند یک کارآموز باهوش اما گاهی دروغگو نگاه کنید، نه یک دانشنامهٔ بینقص.
تا وقتی خودتان منبع را ندیدهاید، هیچ ادعایی را حتی اگر با اطمینان ۱۰۰٪ توسط یک هوش مصنوعی گفته شده باور نکنید. این بزرگترین درسی است که اینفوگرافیک بنفشرنگ شکسته به ما میدهد.