
مدلهای جدید هوش مصنوعی استدلالی O3 و O4-mini از OpenAI از بسیاری جهات پیشرفتهترین فناوریهای روز هستند. با این حال، این مدلها همچنان دچار «توهمزایی» (ساختگیسازی اطلاعات) میشوند – حتی بیش از مدلهای قدیمیتر OpenAI.
توهمزایی یکی از بزرگترین و چالشبرانگیزترین مشکلات حلنشده در حوزهی هوش مصنوعی است که حتی بهترین سیستمهای فعلی را نیز تحت تأثیر قرار میدهد. بهطور تاریخی، هر مدل جدید در مقایسه با نسخههای پیشین، بهبود جزئی در کاهش توهمزایی نشان میداد. اما به نظر میرسد این روند برای O3 و O4-mini صادق نیست.
بر اساس آزمونهای داخلی OpenAI، مدلهای استدلالی O3 و O4-mini در مقایسه با مدلهای استدلالی قبلی این شرکت مانند O1، O1-mini و O3-mini و همچنین مدلهای «غیراستدلالی» مانند GPT-4o، بیشتر توهمزایی میکنند.
نکتهی نگرانکنندهتر این است که سازندهی ChatGPT دقیقاً نمیداند چرا این اتفاق رخ میدهد.
در گزارش فنی مربوط به O3 و O4-mini، OpenAI مینویسد که «برای درک علت افزایش توهمزایی با ارتقای مدلهای استدلالی، تحقیقات بیشتری لازم است». این مدلها در برخی حوزهها مانند کدنویسی و ریاضیات عملکرد بهتری دارند، اما از آنجا که «ادعاهای بیشتری مطرح میکنند»، ممکن است همزمان هم پاسخهای دقیقتر و هم اطلاعات نادرست بیشتری تولید کنند.
بر اساس این گزارش، O3 در پاسخ به ۳۳٪ از سؤالات در «PersonQA» (معیار سنجش داخلی OpenAI برای ارزیابی دقت دانش مدل دربارهی افراد) توهمزایی کرده است. این رقم تقریباً دو برابر نرخ توهمزایی مدلهای استدلالی قبلی مانند O1 (۱۶٪) و O3-mini (۱۴.۸٪) است. عملکرد O4-mini در این آزمون حتی بدتر بود و ۴۸٪ توهمزایی نشان داد.
آزمونهای مستقل توسط «Transluce»، یک آزمایشگاه غیرانتفاعی تحقیقات هوش مصنوعی، نیز نشان میدهد که O3 تمایل به جعل اقداماتی دارد که در فرآیند پاسخگویی انجام داده است. بهعنوان مثال، محققان Transluce مشاهده کردند که O3 ادعا کرد کدی را روی مکبوک پرو ۲۰۲۱ «خارج از ChatGPT» اجرا کرده و نتایج را در پاسخ خود کپی کرده است، در حالی که چنین قابلیتی وجود ندارد.
«نیل چودهاری»، محقق Transluce و کارمند سابق OpenAI، در ایمیلی به TechCrunch گفت: «فرضیهی ما این است که نوع یادگیری تقویتی استفادهشده برای مدلهای سری O ممکن است مشکلاتی را تشدید کند که معمولاً با خطوط لولهی پس از آموزش کاهش مییابند (اما کاملاً از بین نمیروند).»
«سارا شوتمن»، یکی از بنیانگذاران Transluce، افزود که نرخ بالای توهمزایی O3 ممکن است کاربرد آن را محدود کند.
از سوی دیگر، «کیان کتانفروش»، استاد دانشگاه استنفورد و مدیرعامل استارتاپ آموزشی Workera، به TechCrunch گفت که تیمش در حال آزمایش O3 در گردشهای کاری کدنویسی است و عملکرد آن را بهتر از رقبا میداند. با این حال، او اشاره کرد که O3 گاهی لینکهای وبسایتِ خراب توهمزایی میکند که با کلیک کاربر، کار نمیکنند.
اگرچه توهمزایی ممکن است به مدلها در تولید ایدههای خلاقانه کمک کند، اما برای کسبوکارهایی که دقت بالا حیاتی است (مانند شرکتهای حقوقی)، این مسئله یک چالش بزرگ محسوب میشود.
یک راهکار امیدوارکننده برای بهبود دقت مدلها، افزودن قابلیت جستجوی وب است. بهعنوان مثال، GPT-4o با قابلیت جستجوی وب به دقت ۹۰٪ در معیار سنجش دقت OpenAI (SimpleQA) دست یافته است. این قابلیت ممکن است نرخ توهمزایی مدلهای استدلالی را نیز کاهش دهد، البته در صورتی که کاربران حاضر باشند دستورات خود را در معرض جستجوگرهای شخص ثالث قرار دهند.
اگر افزایش مقیاس مدلهای استدلالی واقعاً منجر به تشدید توهمزایی شود، یافتن راهحل برای آن به اولویتی فوری تبدیل خواهد شد.
«نیکو فلیکس»، سخنگوی OpenAI، در ایمیلی اعلام کرد: «رفع توهمزایی در تمام مدلهای ما یک حوزهی تحقیقاتی مداوم است و ما همواره در حال بهبود دقت و قابلیت اطمینان آنها هستیم».
در سال گذشته، صنعت هوش مصنوعی پس از کاهش بازدهی تکنیکهای بهبود مدلهای سنتی، به سمت مدلهای استدلالی چرخش کرده است. این مدلها بدون نیاز به منابع محاسباتی و دادههای عظیم، عملکرد بهتری در وظایف مختلف دارند. اما به نظر میرسد استدلالگرایی با افزایش توهمزایی همراه است – چالشی که نیاز به راهحلی اساسی دارد.
#هوش_مصنوعی #OpenAI #توهم_زایی #GPT4o #مدل_O3 #مدل_O4mini #ChatGPT #مدل_استدلالی #Transluce #AI #مدل_زبان #یادگیری_تقویتی