متا FAIR با پنج پروژه پیشرو، هوش مصنوعی انسان‌مانند را ارتقا می‌دهد

Meta FAIR

متا FAIR با پنج پروژه پیشرو، هوش مصنوعی انسان‌مانند را ارتقا می‌دهد

تیم تحقیقاتی بنیادی هوش مصنوعی متا (FAIR) از پنج پروژه جدید رونمایی کرده که گام‌های بلندی در مسیر دستیابی به هوش ماشینی پیشرفته (AMI) برمی‌دارند. این پروژه‌ها با تمرکز بر تقویت ادراک هوش مصنوعی، پیشرفت در مدل‌سازی زبان، روباتیک و همکاری عوامل هوش مصنوعی، به دنبال ایجاد ماشین‌هایی هستند که بتوانند اطلاعات حسی را مانند انسان‌ها پردازش کنند، درک کنند و با سرعت و دقت تصمیم‌گیری کنند.

1. رمزگذار ادراک (Perception Encoder): دید پیشرفته برای هوش مصنوعی

رمزگذار ادراک، یک رمزگذار بصری در مقیاس بزرگ، به‌عنوان «چشم» سیستم‌های هوش مصنوعی عمل می‌کند و در پردازش تصاویر و ویدئوها برتری دارد. این رمزگذار برای تشخیص مفاهیم گسترده و جزئیات ظریف، مانند شناسایی یک پرنده کوچک در پس‌زمینه یا یک حیوان در فیلم شبانه، طراحی شده است. متا ادعا می‌کند که این رمزگذار در وظایف طبقه‌بندی و بازیابی صفرشات (Zero-Shot) از تمام مدل‌های متن‌باز و اختصاصی پیشی می‌گیرد.

هنگامی که با یک مدل زبانی بزرگ (LLM) ادغام شود، رمزگذار ادراک در پاسخ به سؤالات بصری، تولید زیرنویس، درک اسناد و پیوند متن به تصاویر (Grounding) عملکرد بهتری نسبت به سایر رمزگذارهای بصری نشان می‌دهد. این رمزگذار همچنین در درک روابط فضایی و حرکات دوربین، که برای LLM‌ها چالش‌برانگیز است، بهبودهای چشمگیری ایجاد می‌کند. متا انتظار دارد این فناوری در کاربردهای نوآورانه، از جمله سیستم‌های رباتیک پیشرفته، تأثیرگذار باشد.

Meta FAIR

 

💠بیشتر بخوانید:  گوگل با پروتکل A2A و هم‌افزایی HyperCycle، همکاری عوامل هوش مصنوعی را متحول می‌کند

2. مدل زبانی ادراک (PLM): تحقیق باز در زبان و بینایی

مدل زبانی ادراک (PLM) یک مدل متن‌باز و قابل‌تکرار برای وظایف پیچیده تشخیص بصری است. این مدل با داده‌های مصنوعی گسترده و مجموعه داده‌های زبان-بینایی متن‌باز آموزش دیده و در نسخه‌های 1، 3 و 8 میلیارد پارامتری عرضه می‌شود. متا برای رفع کمبود داده‌های باکیفیت ویدیویی، مجموعه داده‌ای با 2.5 میلیون نمونه برچسب‌گذاری‌شده توسط انسان ایجاد کرده که بزرگ‌ترین در نوع خود است و بر پاسخ به سؤالات ویدیویی و زیرنویس‌های مکانی-زمانی تمرکز دارد.

متا همچنین معیار PLM-VideoBench را معرفی کرده که توانایی‌های درک فعالیت‌های ظریف و استدلال مکانی-زمانی را ارزیابی می‌کند. این ترکیب از مدل‌های باز، داده‌های گسترده و معیارهای جدید، جامعه تحقیقاتی متن‌باز را برای پیشبرد پژوهش‌های زبان و بینایی توانمند می‌سازد.

3. Meta Locate 3D: آگاهی فضایی برای روبات‌ها

Meta Locate 3D یک مدل سرتاسری است که به روبات‌ها امکان می‌دهد اشیاء را در محیط‌های سه‌بعدی بر اساس دستورات زبان طبیعی، مانند «یافتن گلدان نزدیک تلویزیون»، مکان‌یابی کنند. این سیستم با پردازش داده‌های حسگرهای RGB-D، روابط فضایی و زمینه را تحلیل می‌کند تا اشیاء را با دقت از موارد مشابه متمایز کند.

💠بیشتر بخوانید:    OpenAI به دنبال خرید کروم برای ساخت مرورگر مبتنی بر هوش مصنوعی

این مدل از سه بخش تشکیل شده است: پیش‌پردازش برای تبدیل ویژگی‌های دوبعدی به ابرهای نقطه‌ای سه‌بعدی، رمزگذار 3D-JEPA برای ایجاد بازنمایی‌های متنی سه‌بعدی، و رمزگشای Locate 3D برای تولید جعبه‌های محدودکننده و ماسک اشیاء. متا همچنین مجموعه داده‌ای با 130,000 حاشیه‌نویسی زبانی در 1,346 صحنه منتشر کرده که داده‌های موجود در این حوزه را دو برابر می‌کند. این فناوری برای پروژه ربات PARTNR متا، که تعاملات طبیعی‌تر انسان-ربات را هدف دارد، حیاتی است.

4. ترانسفورماتور نهفته بایت پویا: مدل‌سازی زبانی کارآمد

متا وزن‌های مدل 8 میلیارد پارامتری ترانسفورماتور نهفته بایت پویا (Dynamic Byte Latent Transformer) را منتشر کرده است. برخلاف مدل‌های سنتی مبتنی بر توکن، این مدل در سطح بایت عمل می‌کند و کارایی استنتاج و مقاومت در برابر خطاهایی مانند املای نادرست یا ورودی‌های متخاصم را بهبود می‌بخشد.

متا گزارش می‌دهد که این مدل در وظایف مختلف، با میانگین 7 امتیاز برتری در استحکام (در HellaSwag آشوب‌زده) و تا 55 امتیاز در معیار CUTE، از مدل‌های توکن‌محور پیشی می‌گیرد. انتشار وزن‌ها و کدهای این مدل، پژوهشگران را به کاوش در این رویکرد نوین مدل‌سازی زبانی تشویق می‌کند.

5. استدلال‌گر مشارکتی: عوامل هوش مصنوعی اجتماعی

استدلال‌گر مشارکتی (Collaborative Reasoner) چارچوبی برای ایجاد عوامل هوش مصنوعی است که می‌توانند با انسان‌ها یا دیگر عوامل به‌صورت اجتماعی و مؤثر همکاری کنند. این پروژه بر مهارت‌های اجتماعی مانند همدلی، ارائه بازخورد، و درک نظریه ذهن (حالات ذهنی دیگران) تمرکز دارد که برای همکاری در وظایفی مانند کمک به تکالیف یا آماده‌سازی مصاحبه ضروری‌اند.

💠بیشتر بخوانید:    گوگل تولید پیکسل را به هند منتقل می‌کند: راهکاری برای کاهش تعرفه‌ها

متا چارچوبی برای ارزیابی این مهارت‌ها ارائه کرده که شامل وظایف هدف‌محور با استدلال چندمرحله‌ای از طریق گفت‌وگو است. ارزیابی‌ها نشان داد که مدل‌های کنونی در بهره‌گیری مداوم از همکاری ضعف دارند. برای رفع این مشکل، متا تکنیک خود-بهبودی را با داده‌های تعامل مصنوعی پیشنهاد کرده که توسط موتور ماتریکس تولید می‌شود. این روش تا 29.4 درصد بهبود در وظایف ریاضی، علمی و استدلال اجتماعی نسبت به روش‌های استاندارد ایجاد کرده است. متا با متن‌باز کردن خط لوله تولید داده و مدل‌سازی، پژوهش در عوامل اجتماعی هوش مصنوعی را ترویج می‌دهد.

تأکید بر تحقیقات بنیادی
این پنج پروژه نشان‌دهنده سرمایه‌گذاری عظیم متا در تحقیقات بنیادی هوش مصنوعی است که بر ایجاد ماشین‌هایی با توانایی‌های ادراکی، تعاملی و تصمیم‌گیری انسان‌مانند تمرکز دارد. با انتشار مدل‌های متن‌باز، مجموعه داده‌های بزرگ و معیارهای نوین، متا نه‌تنها پیشرفت خود را تسریع می‌کند، بلکه جامعه جهانی پژوهشگران را به مشارکت در این مسیر دعوت می‌کند. این تلاش‌ها می‌توانند پایه‌ای برای سیستم‌های هوش مصنوعی پیشرفته‌تر در حوزه‌هایی مانند روباتیک، دستیارهای هوشمند و پردازش داده‌های بصری باشند.

منبع

برچسب ها :
Picture of هاریکا

هاریکا

هاریکا، به‌عنوان مجله‌ای نوآوری و مدرن در دنیای تکنولوژی، فعالیت خود را با هدف ارائه دقیق‌ترین و به‌روزترین اخبار، تحلیل‌ها و بررسی‌های فناوری آغاز کرده است. ما باور داریم که تکنولوژی فراتر از یک ابزار است؛ این یک سبک زندگی است که هر روز، جنبه‌های مختلف زندگی ما را دگرگون می‌کند. هاریکا، از ترکیب شور و تخصص در دنیای دیجیتال متولد شده است. تیم ما شامل گروهی از نویسندگان، تحلیل‌گران و علاقه‌مندان به فناوری است که هدفشان ارائه محتوایی جذاب، قابل اعتماد و کاربرپسند به شماست.

مقالات مرتبط

هوش مصنوعی اپل بی‌نیاز از اینترنت

به گزارش خبرگزاری هاریکا و براساس گزارش زومیت، در رویداد WWDC 2025، اپل…

1404-03-23

اختلال ChatGPT: شوک کاربران، طنز آنلاین و وابستگی به هوش مصنوعی

اختلال گسترده ChatGPT در ۲۰ خرداد ۱۴۰۴ (۱۰ ژوئن ۲۰۲۵) موجی از…

1404-03-22

طرح ملی آموزش هوش مصنوعی به دو میلیون دانش‌آموز کلید خورد – خبرگزاری هاریکا

به گزارش خبرگزاری هاریکا به نقل از معاونت علمی، فناوری و اقتصاد…

1404-03-22

معرفی ویرایشگر جدید ویدئوی هوش مصنوعی – هاریکا

به گزارش هاریکا به نقل از هاریکا، ابزار ویرایش چشمگیر Movie Gen…

1404-03-22

با هوش مصنوعی آینده دانشگاه امیرکبیر را رویاپردازی کنید – خبرگزاری هاریکا |

به گزارش خبرگزاری هاریکا، دانشگاه امیرکبیر، مسابقه‌ای متفاوت با عنوان «Amirkabir ۲۰۷۷»…

1404-03-21

سرمایه‌گذاری 15میلیارد دلاری متا در Scale AI – هاریکا

به گزارش سرویس علم و فناوری هاریکا، متا در حال مذاکره با…

1404-03-21

چینی‌ها از قدرتمندترین هوش مصنوعی ربات‌ها رونمایی کردند – هاریکا

به گزارش سرویس علم و فناوری هاریکا، هفته گذشته، آکادمی هوش مصنوعی…

دیپ‌مایند سیستم تازه‌ای ساخته که الگوریتم‌ها را خودکار طراحی می‌کند –

به گزارش سرویس علم و فناوری هاریکا، در جدیدترین پیشرفت حوزه هوش…

1404-03-19

عکس | واضح‌ترین تصاویری که تاکنون از ماه گرفته شده است

واضح‌ترین عکسی که تا کنون از ماه گرفته شده است. حجم اصلی…

1404-03-19

اوپن‌ای‌آی چت‌جی‌پی‌تی را به دانشگاه‌های آمریکا می‌برد

اوپن‌ای‌آی هوش مصنوعی را به زیرساخت‌های دانشگاهی وارد می‌کند اوپن‌ای‌آی، سازنده چت‌جی‌پی‌تی،…

1404-03-18

ایران با این فناوری به ماه می‌رود – هاریکا

به گزارش هاریکا به نقل از فارس، «صنعت هسته‌ای یک صنعت مادر…

کشف یک هرم مرموز در نیمه پنهان ماه + عکس – هاریکا

به گزارش هاریکا به نقل از گجت‌نیوز، پژوهشگران و علاقه‌مندان به اخترشناسی…

1404-03-18