متا FAIR با پنج پروژه پیشرو، هوش مصنوعی انسانمانند را ارتقا میدهد
تیم تحقیقاتی بنیادی هوش مصنوعی متا (FAIR) از پنج پروژه جدید رونمایی کرده که گامهای بلندی در مسیر دستیابی به هوش ماشینی پیشرفته (AMI) برمیدارند. این پروژهها با تمرکز بر تقویت ادراک هوش مصنوعی، پیشرفت در مدلسازی زبان، روباتیک و همکاری عوامل هوش مصنوعی، به دنبال ایجاد ماشینهایی هستند که بتوانند اطلاعات حسی را مانند انسانها پردازش کنند، درک کنند و با سرعت و دقت تصمیمگیری کنند.
1. رمزگذار ادراک (Perception Encoder): دید پیشرفته برای هوش مصنوعی
رمزگذار ادراک، یک رمزگذار بصری در مقیاس بزرگ، بهعنوان «چشم» سیستمهای هوش مصنوعی عمل میکند و در پردازش تصاویر و ویدئوها برتری دارد. این رمزگذار برای تشخیص مفاهیم گسترده و جزئیات ظریف، مانند شناسایی یک پرنده کوچک در پسزمینه یا یک حیوان در فیلم شبانه، طراحی شده است. متا ادعا میکند که این رمزگذار در وظایف طبقهبندی و بازیابی صفرشات (Zero-Shot) از تمام مدلهای متنباز و اختصاصی پیشی میگیرد.
هنگامی که با یک مدل زبانی بزرگ (LLM) ادغام شود، رمزگذار ادراک در پاسخ به سؤالات بصری، تولید زیرنویس، درک اسناد و پیوند متن به تصاویر (Grounding) عملکرد بهتری نسبت به سایر رمزگذارهای بصری نشان میدهد. این رمزگذار همچنین در درک روابط فضایی و حرکات دوربین، که برای LLMها چالشبرانگیز است، بهبودهای چشمگیری ایجاد میکند. متا انتظار دارد این فناوری در کاربردهای نوآورانه، از جمله سیستمهای رباتیک پیشرفته، تأثیرگذار باشد.
💠بیشتر بخوانید: گوگل با پروتکل A2A و همافزایی HyperCycle، همکاری عوامل هوش مصنوعی را متحول میکند
2. مدل زبانی ادراک (PLM): تحقیق باز در زبان و بینایی
مدل زبانی ادراک (PLM) یک مدل متنباز و قابلتکرار برای وظایف پیچیده تشخیص بصری است. این مدل با دادههای مصنوعی گسترده و مجموعه دادههای زبان-بینایی متنباز آموزش دیده و در نسخههای 1، 3 و 8 میلیارد پارامتری عرضه میشود. متا برای رفع کمبود دادههای باکیفیت ویدیویی، مجموعه دادهای با 2.5 میلیون نمونه برچسبگذاریشده توسط انسان ایجاد کرده که بزرگترین در نوع خود است و بر پاسخ به سؤالات ویدیویی و زیرنویسهای مکانی-زمانی تمرکز دارد.
متا همچنین معیار PLM-VideoBench را معرفی کرده که تواناییهای درک فعالیتهای ظریف و استدلال مکانی-زمانی را ارزیابی میکند. این ترکیب از مدلهای باز، دادههای گسترده و معیارهای جدید، جامعه تحقیقاتی متنباز را برای پیشبرد پژوهشهای زبان و بینایی توانمند میسازد.
3. Meta Locate 3D: آگاهی فضایی برای روباتها
Meta Locate 3D یک مدل سرتاسری است که به روباتها امکان میدهد اشیاء را در محیطهای سهبعدی بر اساس دستورات زبان طبیعی، مانند «یافتن گلدان نزدیک تلویزیون»، مکانیابی کنند. این سیستم با پردازش دادههای حسگرهای RGB-D، روابط فضایی و زمینه را تحلیل میکند تا اشیاء را با دقت از موارد مشابه متمایز کند.
💠بیشتر بخوانید: OpenAI به دنبال خرید کروم برای ساخت مرورگر مبتنی بر هوش مصنوعی
این مدل از سه بخش تشکیل شده است: پیشپردازش برای تبدیل ویژگیهای دوبعدی به ابرهای نقطهای سهبعدی، رمزگذار 3D-JEPA برای ایجاد بازنماییهای متنی سهبعدی، و رمزگشای Locate 3D برای تولید جعبههای محدودکننده و ماسک اشیاء. متا همچنین مجموعه دادهای با 130,000 حاشیهنویسی زبانی در 1,346 صحنه منتشر کرده که دادههای موجود در این حوزه را دو برابر میکند. این فناوری برای پروژه ربات PARTNR متا، که تعاملات طبیعیتر انسان-ربات را هدف دارد، حیاتی است.
4. ترانسفورماتور نهفته بایت پویا: مدلسازی زبانی کارآمد
متا وزنهای مدل 8 میلیارد پارامتری ترانسفورماتور نهفته بایت پویا (Dynamic Byte Latent Transformer) را منتشر کرده است. برخلاف مدلهای سنتی مبتنی بر توکن، این مدل در سطح بایت عمل میکند و کارایی استنتاج و مقاومت در برابر خطاهایی مانند املای نادرست یا ورودیهای متخاصم را بهبود میبخشد.
متا گزارش میدهد که این مدل در وظایف مختلف، با میانگین 7 امتیاز برتری در استحکام (در HellaSwag آشوبزده) و تا 55 امتیاز در معیار CUTE، از مدلهای توکنمحور پیشی میگیرد. انتشار وزنها و کدهای این مدل، پژوهشگران را به کاوش در این رویکرد نوین مدلسازی زبانی تشویق میکند.
5. استدلالگر مشارکتی: عوامل هوش مصنوعی اجتماعی
استدلالگر مشارکتی (Collaborative Reasoner) چارچوبی برای ایجاد عوامل هوش مصنوعی است که میتوانند با انسانها یا دیگر عوامل بهصورت اجتماعی و مؤثر همکاری کنند. این پروژه بر مهارتهای اجتماعی مانند همدلی، ارائه بازخورد، و درک نظریه ذهن (حالات ذهنی دیگران) تمرکز دارد که برای همکاری در وظایفی مانند کمک به تکالیف یا آمادهسازی مصاحبه ضروریاند.
💠بیشتر بخوانید: گوگل تولید پیکسل را به هند منتقل میکند: راهکاری برای کاهش تعرفهها
متا چارچوبی برای ارزیابی این مهارتها ارائه کرده که شامل وظایف هدفمحور با استدلال چندمرحلهای از طریق گفتوگو است. ارزیابیها نشان داد که مدلهای کنونی در بهرهگیری مداوم از همکاری ضعف دارند. برای رفع این مشکل، متا تکنیک خود-بهبودی را با دادههای تعامل مصنوعی پیشنهاد کرده که توسط موتور ماتریکس تولید میشود. این روش تا 29.4 درصد بهبود در وظایف ریاضی، علمی و استدلال اجتماعی نسبت به روشهای استاندارد ایجاد کرده است. متا با متنباز کردن خط لوله تولید داده و مدلسازی، پژوهش در عوامل اجتماعی هوش مصنوعی را ترویج میدهد.
تأکید بر تحقیقات بنیادی
این پنج پروژه نشاندهنده سرمایهگذاری عظیم متا در تحقیقات بنیادی هوش مصنوعی است که بر ایجاد ماشینهایی با تواناییهای ادراکی، تعاملی و تصمیمگیری انسانمانند تمرکز دارد. با انتشار مدلهای متنباز، مجموعه دادههای بزرگ و معیارهای نوین، متا نهتنها پیشرفت خود را تسریع میکند، بلکه جامعه جهانی پژوهشگران را به مشارکت در این مسیر دعوت میکند. این تلاشها میتوانند پایهای برای سیستمهای هوش مصنوعی پیشرفتهتر در حوزههایی مانند روباتیک، دستیارهای هوشمند و پردازش دادههای بصری باشند.