
این مدل که BitNet b1.58 2B4T نام دارد، بزرگترین مدل از نوع «بیتنت» (شبکه ۱ بیتی) است و با مجوز MIT بهصورت رایگان در دسترس قرار گرفته. بیتنتها مدلهای فشردهای هستند که برای اجرا روی سختافزارهای کممصرف طراحی شدهاند.
چگونه کار میکند؟
در مدلهای معمولی، «وزنها» (مقادیری که ساختار داخلی مدل را تعیین میکنند) اغلب «کوانتیزه» میشوند تا عملکرد بهتری روی سختافزارهای مختلف داشته باشند. این فرآیند، تعداد بیتهای موردنیاز برای ذخیره وزنها را کاهش میدهد. اما در بیتنتها، وزنها فقط به سه مقدار ۱-، ۰ و ۱ محدود میشوند که مصرف حافظه و قدرت پردازش را بهشدت کاهش میدهد.
جزئیات فنی:
این مدل ۲ میلیارد پارامتر دارد و روی ۴ تریلیون توکن (معادل حدود ۳۳ میلیون کتاب!) آموزش دیده است.
طبق آزمایشها، عملکرد آن از مدلهای مشابه مانند Llama 3.2 1B متا، Gemma 3 1B گوگل و Qwen 2.5 1.5B علیبابا در تستهایی مثل GSM8K (مسائل ریاضی سطح دبستان) و PIQA (سؤالات استدلال فیزیکی) بهتر است.
سرعت آن در برخی موارد دو برابر مدلهای همرده است و حافظه بسیار کمتری مصرف میکند.
هشدار مهم:
برای دستیابی به این عملکرد، باید از فریمورک اختصاصی مایکروسافت بهنام bitnet.cpp استفاده کرد که فعلاً فقط روی برخی CPUها (مانند M2 اپل) کار میکند و از کارتهای گرافیک (GPU) پشتیبانی نمیکند.
جمعبندی:
بیتنتها بهویژه برای دستگاههای با منابع محدود (مثل موبایل یا لپتاپ) امیدوارکننده هستند، اما محدودیت پشتیبانی از سختافزارها ممکن است چالش اصلی آنها باقی بماند.
🗨️ آیا این مدل میتواند تحولی در اجرای هوش مصنوعی روی دستگاههای شخصی ایجاد کند؟ نظر شما چیست؟
#هوش_مصنوعی #مایکروسافت #BitNet #مدل_AI #فناوری_جدید #AI_روی_CPU