نرخ توهم در مدلهای هوش مصنوعی
در ماه مارس 2025، مجلهٔ معتبر “Columbia Journalism Review” همراه با شرکت Terzo گزارشی تحقیقی منتشر کرد که یکی از بزرگترین نقاط ضعف کنونی مدلهای زبان بزرگ (LLM) را به شکل آماری و شفاف نشان میدهد: نرخ توهم یا Hallucination Rate.
مفهوم توهم در هوش مصنوعی
توهم زمانی رخ میدهد که مدل هوش مصنوعی با اطمینان کامل مطلبی را بیان میکند که در واقعیت درست نیست یا منبع معتبری برای آن در واقعیت وجود ندارد. این مشکل بهخصوص زمانی خطرناک میشود که کاربر از مدل بخواهد “منابع خبری” یک ادعا یا متن را ذکر کند؛ چون مدل به جای گفتن “نمیدانم” یا “اشتباه کردم” یا حتی “منبع معتبری پیدا نکردم”، شروع به ساختن منبع جعلی، تولید لینک های نامعتبر یا تاریخ اشتباه یا نقل قول نادرست میکند.
نتایج گزارش CJR (مارس 2025)
در این آزمایش، از مدلهای مختلف شامل گروک، چت جی پی تی، جمینای و سایر ابزارهای مطرح هوش مصنوعی خواسته شد تا در چندین سوال مورد طرح، منابعی را که برای ارائه پاسخ استفاده کرده اند را ذکر کنند. نتایج تعجب آور بود:
| مدل هوش مصنوعی | نرخ توهم |
| Grok-3 | %77 |
| Grok-2 | %94 |
| Gemini | %77 |
| DeepSeek | %76 |
| GPT-4o | %68 |
| Perplexity Pro | %67 |
| Perplexity (رایگان) | %45 |
| Copilot | %40 |
| Perplexity (نسخه قدیمیتر) | %37 |
چرا Grok-3 بدترین عملکرد را داشت؟
مدل Grok-3 که در اواخر 2024 و اوایل 2025 بهعنوان یکی از پیشرفتهترین مدلهای xAI معرفی شده بود، در این آزمون خاص 94٪ ریفرنس ها را کاملاً یا تا حدی اشتباه داد. این عدد بهقدری بالاست که حتی خود تیم xAI در واکنش اولیه اعلام کرد در حال بررسی آن هستند، چون نتایج با بنچمارکهای داخلیشان همخوانی نداشت.
مدلهایی که بهتر عمل کردند
جالب است که مدلهای Perplexity (بهخصوص نسخههای قدیمیتر و رایگان) و Microsoft Copilot بهطور قابلتوجهی بهتر از بقیه عمل کردند. دلیل اصلی آن این است که این ابزارها از ابتدا برای “جستجو+تولید پاسخ” طراحی شدهاند و مکانیزم تحلیل منطقی داده و بازیابی اطلاعات (retrieval) قویتری دارند، در حالی که مدلهای بزرگ مثل Grok-3 و Gemini بیشتر روی “تولید متن روان” بهینهسازی شدهاند تا «دقت منبعدهی”
چرا این موضوع برای کاربران فارسیزبان مهم است؟
- بسیاری از ما روزانه از چتباتها برای چک کردن اخبار، منابع تاریخی یا حتی فکتچک استفاده میکنیم.
- وقتی مدلی با 94٪ احتمال منبع جعلی بدهد، خطر انتشار اطلاعات غلط بهصورت ویروسی بسیار بالاست.
- در زبان فارسی که منابع معتبر دیجیتال کمتر و پراکندهتر هستند، مدلها حتی بیشتر مستعد توهم میشوند (چون دادهٔ آموزشی کمتری دارند).
راهحلهای کوتاهمدت برای کاربران
- همیشه از مدلهایی که قابلیت جستجوی زنده (live web search) دارند استفاده کنید (مثل Perplexity، Copilot با Bing، یا حتی ChatGPT با افزونه Browsing).
- هر منبعی که مدل داد را خودتان دستی چک کنید؛ بهخصوص اگر قرار است در مقاله، پست یا تصمیمگیری مهم استفاده شود.
- از مدلهای تخصصی فکتچک مثل Originality.ai یا ابزارهای منبعیابی مثل Google Scholar + News استفاده کنید.
چشمانداز آینده
شرکتها بهسرعت در حال اضافه کردن لایههای RAG (Retrieval-Augmented Generation) و مکانیزمهای self-fact-check هستند. مثلاً: – Grok-3 در آپدیت آوریل 2025 یک ماژول جدید “DeepSearch” گرفت که نرخ توهم را در تستهای داخلی تا زیر 30٪ کاهش داد. Gemini 2.0 Experimental و GPT-4o-mini نیز بهبودهای چشمگیری در منبعدهی نشان دادهاند.
اما تا زمانی که این بهبودها بهصورت پیشفرض و در همهٔ سناریوها فعال نباشند، قانون طلایی همچنان پابرجاست: به هوش مصنوعی مانند یک کارآموز باهوش اما گاهی دروغگو نگاه کنید، نه یک دانشنامهٔ بینقص.
تا وقتی خودتان منبع را ندیدهاید، هیچ ادعایی را حتی اگر با اطمینان ۱۰۰٪ توسط یک هوش مصنوعی گفته شده باور نکنید. این بزرگترین درسی است که اینفوگرافیک بنفشرنگ شکسته به ما میدهد.