
دارئو آمودی، مدیرعامل شرکت انتروپیک (Anthropic)، روز پنجشنبه مقالهای منتشر کرد که نشان میدهد محققان درک بسیار اندکی از سازوکار درونی مدلهای پیشروی هوش مصنوعی جهان دارند. برای حل این مشکل، آمودی هدفی بلندپروازانه تعیین کرده است: انتروپیک باید تا سال ۲۰۲۷ بتواند اکثر مشکلات مدلهای هوش مصنوعی را بهطور قابلاطمینان تشخیص دهد.
آمودی در مقاله خود با عنوان «فوریت تفسیرپذیری» اذعان میکند که این مسیر چالشبرانگیز است. او میگوید انتروپیک به پیشرفتهای اولیهای در ردیابی نحوه رسیدن مدلها به پاسخهایشان دست یافته، اما تأکید میکند که برای رمزگشایی این سیستمها ــ بهویژه با افزایش قدرت آنها ــ به تحقیقات بسیار بیشتری نیاز است.
او در این مقاله نوشت:
«من نگران استقرار چنین سیستمهایی بدون درک بهتر از تفسیرپذیری آنها هستم. این سیستمها در آینده کاملاً محور اقتصاد، فناوری و امنیت ملی خواهند بود و آنقدر خودمختار عمل میکنند که اساساً برای بشریت غیرقابلقبول است که کاملاً ناآگاه از نحوه کار آنها باشد.»
انتروپیک یکی از شرکتهای پیشگام در حوزه «تفسیرپذیری مکانیکی» است؛ رشتهای که هدف آن باز کردن جعبه سیاه مدلهای هوش مصنوعی و درک دلیل تصمیمات آنهاست. با وجود پیشرفتهای سریع عملکردی در مدلهای هوش مصنوعی، همچنان درک نسبتاً کمی از چگونگی تصمیمگیری این سیستمها وجود دارد.
برای مثال، اوپنایآی اخیراً مدلهای استدلالی جدیدی به نامهای o3 و o4-mini را معرفی کرده که در برخی وظایف عملکرد بهتری دارند، اما در عین حال نسبت به سایر مدلهای این شرکت، «توهمات» بیشتری تولید میکنند. این شرکت نمیداند چرا چنین اتفاقی رخ میدهد.
آمودی در مقاله خود نوشت:
«وقتی یک سیستم هوش مصنوعی مولد کاری انجام میدهد، مثلاً یک سند مالی را خلاصه میکند، ما در سطحی دقیق یا مشخص نمیدانیم چرا انتخابهای خاصی میکند ــ چرا برخی کلمات را بر دیگران ترجیح میدهد، یا چرا گاهی اشتباه میکند درحالیکه معمولاً دقیق است.»
او در مقاله اشاره میکند که کریس اولاه، همبنیانگذار انتروپیک، میگوید مدلهای هوش مصنوعی «بیشتر پرورش داده میشوند تا ساخته شوند». بهعبارتدیگر، محققان هوش مصنوعی راههایی برای بهبود هوشمندی مدلها یافتهاند، اما دقیقاً نمیدانند چرا این روشها مؤثرند.
آمودی هشدار میدهد که دستیابی به هوش مصنوعی عمومی (AGI) ــ یا آنطور که او مینامد، «یک کشور از نابغهها درون یک مرکز داده» ــ بدون فهم سازوکار این مدلها میتواند خطرناک باشد. او در مقالهای پیشین ادعا کرده بود که صنعت فناوری ممکن است تا سال ۲۰۲۶ یا ۲۰۲۷ به چنین نقطهای برسد، اما معتقد است درک کامل این مدلها بسیار زمانبرتر است.
آمودی میگوید انتروپیک در بلندمدت قصد دارد اساساً «اسکن مغزی» یا «MRI» مدلهای پیشرفته هوش مصنوعی را انجام دهد. او توضیح میدهد که این بررسیها به شناسایی طیف وسیعی از مشکلات در مدلها کمک خواهد کرد؛ از جمله تمایل آنها به دروغگویی، جستوجوی قدرت یا سایر ضعفها. او افزود که دستیابی به این هدف ممکن است ۵ تا ۱۰ سال زمان ببرد، اما چنین اقداماتی برای آزمایش و استقرار مدلهای آینده انتروپیک ضروری خواهند بود.
انتروپیک تاکنون به چند پیشرفت تحقیقاتی دست یافته که درک بهتری از عملکرد مدلهایش فراهم کرده است. برای مثال، این شرکت اخیراً روشهایی برای ردیابی مسیرهای تفکر مدلهای هوش مصنوعی از طریق چیزی که «مدارها» مینامد، کشف کرده است. انتروپیک یکی از این مدارها را شناسایی کرده که به مدلها کمک میکند بفهمند کدام شهرهای آمریکا در کدام ایالتها قرار دارند. این شرکت تاکنون تنها چند مدار یافته، اما تخمین میزند میلیونها مدار درون مدلهای هوش مصنوعی وجود داشته باشد.
علاوه بر سرمایهگذاری روی تحقیقات تفسیرپذیری، انتروپیک اخیراً نخستین سرمایهگذاری خود را در یک استارتاپ فعال در این حوزه انجام داده است. آمودی اشاره میکند که اگرچه امروزه تفسیرپذیری عمدتاً حوزهای از تحقیقات ایمنی محسوب میشود، اما در نهایت توضیح چگونگی رسیدن مدلها به پاسخها میتواند یک مزیت تجاری ایجاد کند.
او در مقاله از اوپنایآی و گوگل دیپمایند خواست تا تلاشهای تحقیقاتی خود در این زمینه را افزایش دهند. علاوه بر این پیشنهاد، مدیرعامل انتروپیک از دولتها خواست تا با اعمال مقررات «ملایم»، تحقیقات تفسیرپذیری را تشویق کنند؛ مانند الزام شرکتها به افشای رویههای ایمنی و امنیتیشان. آمودی همچنین پیشنهاد کرد ایالات متحده باید کنترل صادرات تراشه به چین را اعمال کند تا احتمال یک رقابت جهانی مهارنشده در حوزه هوش مصنوعی کاهش یابد.
انتروپیک همواره با تمرکز بر ایمنی، از اوپنایآی و گوگل متمایز شده است. در حالی که دیگر شرکتهای فناوری با لایحه جنجالی ایمنی هوش مصنوعی کالیفرنیا (SB 1047) مخالفت کردند، انتروپیک حمایت محدود و پیشنهاداتی برای این لایحه ارائه داد که هدفش تعیین استانداردهای گزارشدهی ایمنی برای توسعهدهندگان مدلهای پیشرفته هوش مصنوعی بود.
در این مورد نیز، به نظر میرسد انتروپیک در تلاش است تا صنعت را به سمت درک بهتر مدلهای هوش مصنوعی سوق دهد، نه صرفاً افزایش قابلیتهای آنها.