گوگل در نهایت مدل‌های هوش مصنوعی Gemini و Veo را ادغام خواهد کرد

مدیر

AI News

23 فروردین 1404

2 دقیقه مطالعه

دیمیس هاسیبیس، مدیرعامل گوگل دیپ‌مایند، از برنامه‌های این شرکت برای ترکیب مدل‌های Gemini و Veo خبر داد. هدف نهایی: ساخت دستیار دیجیتال جهانی با قابلیت درک چندوجهی از محیط فیزیکی.

در مصاحبه‌ای اخیر با پادکست Possible (با میزبانی مشترک رید هافمن، بنیان‌گذار لینکدین)، دیمیس هاسیبیس، مدیرعامل گوگل دیپ‌مایند، تأیید کرد که این شرکت قصد دارد مدل‌های Gemini (هوش مصنوعی چندوجهی) و Veo (تولید ویدیو) را با یکدیگر ادغام کند تا درک Gemini از جهان فیزیکی ارتقاء یابد.

هاسیبیس در این باره گفت:

«از ابتدا Gemini را به‌عنوان یک مدل چندوجهی (Multimodal) طراحی کردیم. هدف نهایی ما، ساخت یک دستیار دیجیتال جهانی است که نه‌تنها به سؤالات پاسخ می‌دهد، بلکه در انجام وظایف واقعی نیز به کاربران کمک می‌کند.»

حرکت صنعت AI به سمت مدل‌های «همه‌جانبه» (Omni)

هاسیبیس به روند کلی صنعت هوش مصنوعی اشاره کرد که در حال حرکت به سمت توسعه مدل‌های Omni است؛ مدل‌هایی که قادر به درک و تولید انواع فرمت‌های رسانه‌ای هستند:

گوگل: نسخه‌های جدید Gemini می‌توانند متن، تصویر و صدا تولید کنند.
OpenAI: مدل پیش‌فرض ChatGPT اکنون قادر به خلق تصاویر است (از جمله تصاویری به سبک استودیو جیبلی).
آمازون: قصد دارد تا پایان سال جاری مدل «any-to-any» خود را راه‌اندازی کند.

نقش کلیدی یوتیوب در آموزش مدل‌ها

هاسیبیس تأکید کرد که داده‌های آموزشی مدل ویدیویی Veo عمدتاً از یوتیوب (پلتفرمی تحت مالکیت گوگل) تأمین می‌شود:

«Veo با تماشای حجم عظیمی از ویدیوهای یوتیوب، می‌تواند قوانین فیزیکی حاکم بر جهان را درک کند.»

پیش‌تر گوگل به TechCrunch اعلام کرده بود که مدل‌هایش «ممکن است» با استفاده از «برخی» محتوای یوتیوب و مطابق با توافق با تولیدکنندگان محتوا، آموزش ببینند.

گزارش‌ها نشان می‌دهد که گوگل سال گذشته شرایط استفاده از خدمات خود را گسترش داد تا امکان دسترسی گسترده‌تر به داده‌های آموزشی برای مدل‌های AI فراهم شود.