
در مصاحبهای اخیر با پادکست Possible (با میزبانی مشترک رید هافمن، بنیانگذار لینکدین)، دیمیس هاسیبیس، مدیرعامل گوگل دیپمایند، تأیید کرد که این شرکت قصد دارد مدلهای Gemini (هوش مصنوعی چندوجهی) و Veo (تولید ویدیو) را با یکدیگر ادغام کند تا درک Gemini از جهان فیزیکی ارتقاء یابد.
هاسیبیس در این باره گفت:
«از ابتدا Gemini را بهعنوان یک مدل چندوجهی (Multimodal) طراحی کردیم. هدف نهایی ما، ساخت یک دستیار دیجیتال جهانی است که نهتنها به سؤالات پاسخ میدهد، بلکه در انجام وظایف واقعی نیز به کاربران کمک میکند.»
حرکت صنعت AI به سمت مدلهای «همهجانبه» (Omni)
هاسیبیس به روند کلی صنعت هوش مصنوعی اشاره کرد که در حال حرکت به سمت توسعه مدلهای Omni است؛ مدلهایی که قادر به درک و تولید انواع فرمتهای رسانهای هستند:
-
گوگل: نسخههای جدید Gemini میتوانند متن، تصویر و صدا تولید کنند.
-
OpenAI: مدل پیشفرض ChatGPT اکنون قادر به خلق تصاویر است (از جمله تصاویری به سبک استودیو جیبلی).
-
آمازون: قصد دارد تا پایان سال جاری مدل «any-to-any» خود را راهاندازی کند.
نقش کلیدی یوتیوب در آموزش مدلها
هاسیبیس تأکید کرد که دادههای آموزشی مدل ویدیویی Veo عمدتاً از یوتیوب (پلتفرمی تحت مالکیت گوگل) تأمین میشود:
«Veo با تماشای حجم عظیمی از ویدیوهای یوتیوب، میتواند قوانین فیزیکی حاکم بر جهان را درک کند.»
پیشتر گوگل به TechCrunch اعلام کرده بود که مدلهایش «ممکن است» با استفاده از «برخی» محتوای یوتیوب و مطابق با توافق با تولیدکنندگان محتوا، آموزش ببینند.
گزارشها نشان میدهد که گوگل سال گذشته شرایط استفاده از خدمات خود را گسترش داد تا امکان دسترسی گستردهتر به دادههای آموزشی برای مدلهای AI فراهم شود.
چشمانداز آینده: دستیار دیجیتال هوشمندتر
هاسیبیس، ادغام Gemini و Veo را گامی کلیدی در مسیر تحقق یک دستیار دیجیتال همهکاره توصیف کرد؛ دستیاری که قادر است:
-
تعاملات پیچیده با کاربران را مدیریت کند.
-
درک عمیقتری از محیط فیزیکی (مانند پیشبینی نتایج اقدامات) داشته باشد.
-
به صورت بلادرنگ به نیازهای کاربران پاسخ دهد.
منبع
#گوگل_دیپمایند #هوش_مصنوعی_چندوجهی #دستیار_دیجیتال #مدل_Omni #دیمیس_هاسیبیس