پایگاه خبری فولاد ایران - شرکت نوپای چینی DeepSeek نسخه آزمایشی مدل هوش مصنوعی خود، DeepSeek-V3.2-Exp، را رونمایی کرد. این مدل وعده میدهد با افزایش بهرهوری و کاهش هزینهها، بتواند حجم بالای دادهها را با دقت بالا مدیریت کند، اما کارشناسان در مورد اثرگذاری و ایمنی این معماری هنوز تردید دارند.
طبق گزارش سیانبیسی،DeepSeek سال گذشته با مدل اولیه خود R1 صنعت هوش مصنوعی را شگفتزده کرد، زیرا نشان داد میتوان مدلهای بزرگ زبانی (LLM) را سریع و با منابع کمتر و سختافزار ضعیفتر آموزش داد.
ویژگیهای جدید DeepSeek-V3.2-Exp
• تمرکز روی بهرهوری و کاهش هزینهها، مطابق با ماموریت شرکت.
• ویژگی DSA (DeepSeek Sparse Attention): توانایی بهتر در مدیریت متون طولانی و گفتگوها و کاهش هزینه اجرای مدل تا نصف نسخه قبلی.
• قابلیت اجرای مدل روی چیپهای چینی داخلی مانند Ascend و Cambricon بدون نیاز به تنظیمات اضافی.
• انتشار کد و ابزارهای برنامهنویسی به صورت متن باز برای یادگیری و توسعه توسط دیگران.
مزیت اصلی مدل Sparse Attention این است که فقط دادههای مهم را پردازش میکند و از محاسبات غیرضروری صرفنظر میکند، که منجر به صرفهجویی در منابع و افزایش سرعت میشود.
احتمال کاهش دقت و از دست رفتن جزئیات مهم وجود دارد. به گفته کارشناسان، روش حذف دادهها ممکن است اطلاعات حیاتی را از دست بدهد و عملکرد مدل را کمتر مرتبط کند. این موضوع به ویژه برای ایمنی و شمولپذیری هوش مصنوعی اهمیت دارد.
با وجود شک و تردیدها، این مدل آزمایشی در عملکرد با V3.1-Terminus برابر است و نشاندهنده تمرکز DeepSeek بر بهرهوری به جای قدرت خام محاسباتی است. مدل متنباز بودن آن باعث میشود هرکسی بتواند از آن یاد بگیرد و بهبودهایی ایجاد کند، اما امکان حفاظت پتنتی آن محدود است.
DeepSeek با انتشار این مدل، گام دیگری در مسیر نسل بعدی معماری هوش مصنوعی برداشته است و هدفش ارائه هوش مصنوعی سریع، ارزان و قابل دسترس برای توسعهدهندگان و شرکتهای کوچک است. این اقدام همچنین نشاندهنده رقابت راهبردی چین و آمریکا در حوزه هوش مصنوعی است.
منبع: CNBC