نرخ توهم در مدل‌های هوش مصنوعی

در ماه مارس 2025، مجلهٔ معتبر “Columbia Journalism Review” همراه با شرکت Terzo گزارشی تحقیقی منتشر کرد که یکی از بزرگ‌ترین نقاط ضعف کنونی مدل‌های زبان بزرگ (LLM) را به شکل آماری و شفاف نشان می‌دهد: نرخ توهم یا Hallucination Rate.

مفهوم توهم در هوش مصنوعی

توهم زمانی رخ می‌دهد که مدل هوش مصنوعی با اطمینان کامل مطلبی را بیان می‌کند که در واقعیت درست نیست یا منبع معتبری برای آن در واقعیت وجود ندارد. این مشکل به‌خصوص زمانی خطرناک می‌شود که کاربر از مدل بخواهد “منابع خبری” یک ادعا یا متن را ذکر کند؛ چون مدل به جای گفتن “نمی‌دانم” یا “اشتباه کردم” یا حتی “منبع معتبری پیدا نکردم”، شروع به ساختن منبع جعلی، تولید لینک های نامعتبر یا تاریخ اشتباه یا نقل قول نادرست می‌کند.

نتایج گزارش CJR (مارس 2025)

در این آزمایش، از مدل‌های مختلف شامل گروک، چت جی پی تی، جمینای و سایر ابزارهای مطرح هوش مصنوعی خواسته شد تا در چندین سوال مورد طرح، منابعی را که برای ارائه پاسخ استفاده کرده اند را ذکر کنند. نتایج تعجب آور بود:

مدل هوش مصنوعی	نرخ توهم
Grok-3	%77
Grok-2	%94
Gemini	%77
DeepSeek	%76
GPT-4o	%68
Perplexity Pro	%67
Perplexity (رایگان)	%45
Copilot	%40
Perplexity (نسخه قدیمی‌تر)	%37

چرا Grok-3 بدترین عملکرد را داشت؟

مدل Grok-3 که در اواخر 2024 و اوایل 2025 به‌عنوان یکی از پیشرفته‌ترین مدل‌های xAI معرفی شده بود، در این آزمون خاص 94٪ ریفرنس ها را کاملاً یا تا حدی اشتباه داد. این عدد به‌قدری بالاست که حتی خود تیم xAI در واکنش اولیه اعلام کرد در حال بررسی آن هستند، چون نتایج با بنچمارک‌های داخلی‌شان هم‌خوانی نداشت.

مدل‌هایی که بهتر عمل کردند

جالب است که مدل‌های Perplexity (به‌خصوص نسخه‌های قدیمی‌تر و رایگان) و Microsoft Copilot به‌طور قابل‌توجهی بهتر از بقیه عمل کردند. دلیل اصلی آن این است که این ابزارها از ابتدا برای “جستجو+تولید پاسخ” طراحی شده‌اند و مکانیزم‌ تحلیل منطقی داده و بازیابی اطلاعات (retrieval) قوی‌تری دارند، در حالی که مدل‌های بزرگ مثل Grok-3 و Gemini بیشتر روی “تولید متن روان” بهینه‌سازی شده‌اند تا «دقت منبع‌دهی”

چرا این موضوع برای کاربران فارسی‌زبان مهم است؟

بسیاری از ما روزانه از چت‌بات‌ها برای چک کردن اخبار، منابع تاریخی یا حتی فکت‌چک استفاده می‌کنیم.
وقتی مدلی با 94٪ احتمال منبع جعلی بدهد، خطر انتشار اطلاعات غلط به‌صورت ویروسی بسیار بالاست.
در زبان فارسی که منابع معتبر دیجیتال کمتر و پراکنده‌تر هستند، مدل‌ها حتی بیشتر مستعد توهم می‌شوند (چون دادهٔ آموزشی کمتری دارند).

راه‌حل‌های کوتاه‌مدت برای کاربران

همیشه از مدل‌هایی که قابلیت جستجوی زنده (live web search) دارند استفاده کنید (مثل Perplexity، Copilot با Bing، یا حتی ChatGPT با افزونه Browsing).
هر منبعی که مدل داد را خودتان دستی چک کنید؛ به‌خصوص اگر قرار است در مقاله، پست یا تصمیم‌گیری مهم استفاده شود.
از مدل‌های تخصصی فکت‌چک مثل Originality.ai یا ابزارهای منبع‌یابی مثل Google Scholar + News استفاده کنید.

چشم‌انداز آینده

شرکت‌ها به‌سرعت در حال اضافه کردن لایه‌های RAG (Retrieval-Augmented Generation) و مکانیزم‌های self-fact-check هستند. مثلاً: – Grok-3 در آپدیت آوریل 2025 یک ماژول جدید “DeepSearch” گرفت که نرخ توهم را در تست‌های داخلی تا زیر 30٪ کاهش داد. Gemini 2.0 Experimental و GPT-4o-mini نیز بهبودهای چشمگیری در منبع‌دهی نشان داده‌اند.

اما تا زمانی که این بهبودها به‌صورت پیش‌فرض و در همهٔ سناریوها فعال نباشند، قانون طلایی همچنان پابرجاست: به هوش مصنوعی مانند یک کارآموز باهوش اما گاهی دروغ‌گو نگاه کنید، نه یک دانشنامهٔ بی‌نقص.

تا وقتی خودتان منبع را ندیده‌اید، هیچ ادعایی را حتی اگر با اطمینان ۱۰۰٪ توسط یک هوش مصنوعی گفته شده باور نکنید. این بزرگ‌ترین درسی است که اینفوگرافیک بنفش‌رنگ شکسته به ما می‌دهد.

نرخ توهم در مدل‌های هوش مصنوعی