مدل‌های جدید هوش مصنوعی استدلالی OpenAI بیشتر توهم‌زایی می‌کنند

مدیر

AI News

31 فروردین 1404

2 دقیقه مطالعه

مدل‌های استدلالی جدید OpenAI مانند o3 و o4-mini با وجود دقت بالاتر در ریاضی و کدنویسی، بیشتر دچار توهم‌زایی می‌شوند. براساس گزارش‌ها، o4-mini در ۴۸٪ پاسخ‌ها اطلاعات ساختگی ارائه داده است. علت این مسئله هنوز مشخص نیست.

مدل‌های جدید هوش مصنوعی استدلالی O3 و O4-mini از OpenAI از بسیاری جهات پیشرفته‌ترین فناوری‌های روز هستند. با این حال، این مدل‌ها همچنان دچار «توهم‌زایی» (ساختگی‌سازی اطلاعات) می‌شوند – حتی بیش از مدل‌های قدیمی‌تر OpenAI.

توهم‌زایی یکی از بزرگ‌ترین و چالش‌برانگیزترین مشکلات حل‌نشده در حوزه‌ی هوش مصنوعی است که حتی بهترین سیستم‌های فعلی را نیز تحت تأثیر قرار می‌دهد. به‌طور تاریخی، هر مدل جدید در مقایسه با نسخه‌های پیشین، بهبود جزئی در کاهش توهم‌زایی نشان می‌داد. اما به نظر می‌رسد این روند برای O3 و O4-mini صادق نیست.

بر اساس آزمون‌های داخلی OpenAI، مدل‌های استدلالی O3 و O4-mini در مقایسه با مدل‌های استدلالی قبلی این شرکت مانند O1، O1-mini و O3-mini و همچنین مدل‌های «غیراستدلالی» مانند GPT-4o، بیشتر توهم‌زایی می‌کنند.

نکته‌ی نگران‌کننده‌تر این است که سازنده‌ی ChatGPT دقیقاً نمی‌داند چرا این اتفاق رخ می‌دهد.

در گزارش فنی مربوط به O3 و O4-mini، OpenAI می‌نویسد که «برای درک علت افزایش توهم‌زایی با ارتقای مدل‌های استدلالی، تحقیقات بیشتری لازم است». این مدل‌ها در برخی حوزه‌ها مانند کدنویسی و ریاضیات عملکرد بهتری دارند، اما از آن‌جا که «ادعاهای بیشتری مطرح می‌کنند»، ممکن است هم‌زمان هم پاسخ‌های دقیق‌تر و هم اطلاعات نادرست بیشتری تولید کنند.

بر اساس این گزارش، O3 در پاسخ به ۳۳٪ از سؤالات در «PersonQA» (معیار سنجش داخلی OpenAI برای ارزیابی دقت دانش مدل درباره‌ی افراد) توهم‌زایی کرده است. این رقم تقریباً دو برابر نرخ توهم‌زایی مدل‌های استدلالی قبلی مانند O1 (۱۶٪) و O3-mini (۱۴.۸٪) است. عملکرد O4-mini در این آزمون حتی بدتر بود و ۴۸٪ توهم‌زایی نشان داد.

آزمون‌های مستقل توسط «Transluce»، یک آزمایشگاه غیرانتفاعی تحقیقات هوش مصنوعی، نیز نشان می‌دهد که O3 تمایل به جعل اقداماتی دارد که در فرآیند پاسخ‌گویی انجام داده است. به‌عنوان مثال، محققان Transluce مشاهده کردند که O3 ادعا کرد کدی را روی مک‌بوک پرو ۲۰۲۱ «خارج از ChatGPT» اجرا کرده و نتایج را در پاسخ خود کپی کرده است، در حالی که چنین قابلیتی وجود ندارد.

«نیل چودهاری»، محقق Transluce و کارمند سابق OpenAI، در ایمیلی به TechCrunch گفت: «فرضیه‌ی ما این است که نوع یادگیری تقویتی استفاده‌شده برای مدل‌های سری O ممکن است مشکلاتی را تشدید کند که معمولاً با خطوط لوله‌ی پس از آموزش کاهش می‌یابند (اما کاملاً از بین نمی‌روند).»

«سارا شوتمن»، یکی از بنیان‌گذاران Transluce، افزود که نرخ بالای توهم‌زایی O3 ممکن است کاربرد آن را محدود کند.

از سوی دیگر، «کیان کتانفروش»، استاد دانشگاه استنفورد و مدیرعامل استارتاپ آموزشی Workera، به TechCrunch گفت که تیمش در حال آزمایش O3 در گردش‌های کاری کدنویسی است و عملکرد آن را بهتر از رقبا می‌داند. با این حال، او اشاره کرد که O3 گاهی لینک‌های وب‌سایتِ خراب توهم‌زایی می‌کند که با کلیک کاربر، کار نمی‌کنند.

اگرچه توهم‌زایی ممکن است به مدل‌ها در تولید ایده‌های خلاقانه کمک کند، اما برای کسب‌و‌کارهایی که دقت بالا حیاتی است (مانند شرکت‌های حقوقی)، این مسئله یک چالش بزرگ محسوب می‌شود.

یک راهکار امیدوارکننده برای بهبود دقت مدل‌ها، افزودن قابلیت جستجوی وب است. به‌عنوان مثال، GPT-4o با قابلیت جستجوی وب به دقت ۹۰٪ در معیار سنجش دقت OpenAI (SimpleQA) دست یافته است. این قابلیت ممکن است نرخ توهم‌زایی مدل‌های استدلالی را نیز کاهش دهد، البته در صورتی که کاربران حاضر باشند دستورات خود را در معرض جستجوگرهای شخص ثالث قرار دهند.

اگر افزایش مقیاس مدل‌های استدلالی واقعاً منجر به تشدید توهم‌زایی شود، یافتن راه‌حل برای آن به اولویتی فوری تبدیل خواهد شد.

«نیکو فلیکس»، سخنگوی OpenAI، در ایمیلی اعلام کرد: «رفع توهم‌زایی در تمام مدل‌های ما یک حوزه‌ی تحقیقاتی مداوم است و ما همواره در حال بهبود دقت و قابلیت اطمینان آن‌ها هستیم».

در سال گذشته، صنعت هوش مصنوعی پس از کاهش بازدهی تکنیک‌های بهبود مدل‌های سنتی، به سمت مدل‌های استدلالی چرخش کرده است. این مدل‌ها بدون نیاز به منابع محاسباتی و داده‌های عظیم، عملکرد بهتری در وظایف مختلف دارند. اما به نظر می‌رسد استدلال‌گرایی با افزایش توهم‌زایی همراه است – چالشی که نیاز به راه‌حلی اساسی دارد.

#هوش_مصنوعی #OpenAI #توهم_زایی #GPT4o #مدل_O3 #مدل_O4mini #ChatGPT #مدل_استدلالی #Transluce #AI #مدل_زبان #یادگیری_تقویتی