گوگل دیپ‌مایند با Genie 3 گامی بزرگ به سوی هوش انسان‌گونه برداشت

Genie 3 گوگل دیپ‌مایند

Genie 3 گوگل دیپ‌مایند: خلق دنیاهای تعاملی سه‌بعدی در لحظه

گوگل دیپ‌مایند با معرفی Genie 3، جدیدترین مدل هوش مصنوعی «جهان‌ساز» خود، بار دیگر مرزهای فناوری را جابه‌جا کرد. این مدل که در تاریخ ۱۴ مرداد ۱۴۰۴ (۵ آگوست ۲۰۲۵) رونمایی شد، قادر است محیط‌های سه‌بعدی تعاملی را با کیفیت 720p و نرخ ۲۴ فریم‌برثانیه در لحظه خلق کند. برخلاف روش‌های سنتی که به دارایی‌های سه‌بعدی از پیش طراحی‌شده وابسته هستند، Genie 3 با استفاده از پرامپت‌های متنی یا تصویری، دنیاهایی پویا و قابل‌نویگیشن می‌سازد که کاربران و ایجنت‌های هوش مصنوعی می‌توانند در آن‌ها به‌صورت بلادرنگ تعامل داشته باشند. این پیشرفت که به گفته دیپ‌مایند گامی کلیدی به سوی هوش عمومی مصنوعی (AGI) است، کاربردهای گسترده‌ای در آموزش، سرگرمی، بازی‌سازی و آموزش ربات‌ها دارد.

Genie 3 نسبت به مدل‌های قبلی خود، به‌ویژه Genie 2 که در دسامبر ۲۰۲۴ معرفی شد، جهشی قابل‌توجه داشته است. در حالی که Genie 2 تنها برای ۱۰ تا ۲۰ ثانیه محیط‌های تعاملی پایدار ایجاد می‌کرد، Genie 3 می‌تواند این پایداری را برای چند دقیقه حفظ کند و تا یک دقیقه حافظه بصری محیط را نگه دارد. این بدان معناست که اگر کاربر از شیئی مانند یک تابلو یا دیوار رنگی دور شود و دوباره به آن بازگردد، جزئیات آن دقیقاً همان‌گونه که بود باقی می‌ماند. این ویژگی، که با معماری اتورگرسیو و بدون نیاز به مدل‌های سه‌بعدی از پیش تعریف‌شده ممکن شده، محیط‌هایی با ثبات و فیزیک واقع‌گرایانه ایجاد می‌کند که برای آموزش ایجنت‌های هوش مصنوعی، مانند SIMA، بسیار ارزشمند است.

google-deepmind-genie-3-interactive-3d-worlds

یکی از نوآوری‌های برجسته Genie 3، قابلیت «رویدادهای قابل‌تغییر با پرامپت» است که به کاربران اجازه می‌دهد با دستورات متنی، تغییراتی مانند افزودن شخصیت‌ها، تغییر آب‌وهوا یا معرفی اشیای جدید را در محیط اعمال کنند. برای مثال، در یک دمو، دیپ‌مایند نشان داد که چگونه می‌توان در یک صحنه اسکی، گله‌ای از گوزن‌ها را با یک پرامپت متنی اضافه کرد. این انعطاف‌پذیری، همراه با توانایی شبیه‌سازی پدیده‌های طبیعی مانند جریان آب، نورپردازی و تعاملات پیچیده محیطی، Genie 3 را به ابزاری قدرتمند برای توسعه‌دهندگان بازی، طراحان و پژوهشگران تبدیل کرده است. این مدل از ترکیب فناوری‌های Genie 2 و Veo 3 (مدل تولید ویدئوی دیپ‌مایند) بهره می‌برد و بدون نیاز به موتور فیزیک سخت‌کدنویسی‌شده، قوانین فیزیکی را به‌صورت خودکار یاد می‌گیرد.

google-deepmind-genie-3-interactive-3d-worlds

دیپ‌مایند تأکید کرده که Genie 3 در حال حاضر برای عموم عرضه نمی‌شود و تنها در قالب یک پیش‌نمایش پژوهشی محدود در اختیار گروه کوچکی از پژوهشگران، آکادمیسین‌ها و سازندگان قرار می‌گیرد. این تصمیم به دلیل نیاز به بررسی دقیق مخاطرات احتمالی، از جمله سوءاستفاده در ایجاد واقعیت‌های مجازی گمراه‌کننده یا چالش‌های مرتبط با تعاملات چندایجنتی، اتخاذ شده است. این مدل هنوز محدودیت‌هایی دارد؛ برای مثال، تولید متن خوانا در محیط‌های مجازی تنها در صورتی ممکن است که در پرامپت ورودی مشخص شده باشد و شبیه‌سازی‌ها برای ساعت‌ها پایدار نمی‌مانند، که برای آموزش کامل ایجنت‌ها ضروری است. همچنین، تعاملات ایجنت‌ها به نویگیشن محدود است و توانایی استدلال پیشرفته برای تغییر محیط را ندارند.

کاربردهای Genie 3 فراتر از بازی‌سازی است. این مدل می‌تواند به‌عنوان یک زمین آموزش برای ربات‌ها و وسایل نقلیه خودران عمل کند، به‌ویژه در سناریوهای «چه می‌شود اگر» که در داده‌های آموزشی اولیه وجود ندارند. به گفته شلومی فروختر، مدیر پژوهشی دیپ‌مایند، این مدل می‌تواند با شبیه‌سازی سناریوهای پیچیده، مانند انبارهای پر از اشیا یا محیط‌های طبیعی پویا، به افزایش ایمنی و کارایی ایجنت‌های هوش مصنوعی کمک کند. جک پارکر-هولدر، دانشمند پژوهشی دیپ‌مایند، نیز این مدل را گامی به سوی لحظه‌ای مشابه «حرکت ۳۷» در بازی گو می‌داند، زمانی که AlphaGo استراتژی غیرمنتظره‌ای را ابداع کرد که نشان‌دهنده توانایی‌های فراتر از درک انسانی بود.

دیپ‌مایند که اکنون توسط یکی از توسعه‌دهندگان سابق Sora (ابزار تولید ویدیوی OpenAI) هدایت می‌شود، با تشکیل تیم تخصصی مدل‌های جهانی در سال ۲۰۲۵، سرمایه‌گذاری عظیمی در این حوزه کرده است. این تیم با استفاده از منابع گسترده گوگل، Genie 3 را به‌عنوان یک ابزار تحقیقاتی پیشرو طراحی کرده که می‌تواند در آموزش، طراحی محیط‌های مجازی برای فیلم‌سازی، شبیه‌سازی‌های آموزشی و حتی بازسازی مکان‌های تاریخی مانند ونیز یا کنوسوس باستانی کاربرد داشته باشد. با این حال، نیاز به پردازش سنگین، مانند GPUهای قدرتمند، و محدودیت‌های فعلی مانند عدم پشتیبانی از تعاملات چندایجنتی پیچیده، نشان‌دهنده چالش‌های پیش رو است.

دیپ‌مایند اعلام کرده که در حال بررسی راه‌هایی برای گسترش دسترسی به Genie 3 در آینده است، اما فعلاً تمرکز بر بهبود قابلیت‌ها و کاهش محدودیت‌هاست. این مدل که با داده‌های ویدئویی عظیم آموزش دیده، نه‌تنها در شبیه‌سازی مناظر واقعی مانند دره‌های ایسلند یا مناطق آتشفشانی، بلکه در خلق دنیاهای تخیلی با جزایر شناور یا موجودات متحرک نیز موفق عمل کرده است. اگر به دنبال آینده‌ای هستید که در آن هوش مصنوعی دنیاهای تعاملی را در لحظه خلق کند، Genie 3 نشانه‌ای از آن آینده است، اما برای دسترسی عمومی باید کمی بیشتر صبر کنید.

Picture of هاریکا

هاریکا

هاریکا، به‌عنوان مجله‌ای نوآوری و مدرن در دنیای تکنولوژی، فعالیت خود را با هدف ارائه دقیق‌ترین و به‌روزترین اخبار، تحلیل‌ها و بررسی‌های فناوری آغاز کرده است. ما باور داریم که تکنولوژی فراتر از یک ابزار است؛ این یک سبک زندگی است که هر روز، جنبه‌های مختلف زندگی ما را دگرگون می‌کند. هاریکا، از ترکیب شور و تخصص در دنیای دیجیتال متولد شده است. تیم ما شامل گروهی از نویسندگان، تحلیل‌گران و علاقه‌مندان به فناوری است که هدفشان ارائه محتوایی جذاب، قابل اعتماد و کاربرپسند به شماست.

مقالات مرتبط

ایگور بابوشکین از xAI جدا شد

ایگور بابوشکین، یکی از بنیان‌گذاران xAI، اعلام کرد که این شرکت را…

1404-05-23

بازگشت انتخاب‌گر مدل GPT-5 با حالت‌های Auto، Fast و Thinking پس از واکنش‌های کاربران

اوپن‌ای‌آی هنگام رونمایی از GPT-5 در تاریخ ۷ آگوست ۲۰۲۵، وعده داده…

1404-05-23

هوش مصنوعی تب کرد! افزایش قیمت برق و فشار بر زیرساخت‌های آمریکا

هوش مصنوعی با وعده‌های جذاب خود، از انتخاب غذا و لباس گرفته…

1404-05-23