Genie 3 گوگل دیپمایند: خلق دنیاهای تعاملی سهبعدی در لحظه
گوگل دیپمایند با معرفی Genie 3، جدیدترین مدل هوش مصنوعی «جهانساز» خود، بار دیگر مرزهای فناوری را جابهجا کرد. این مدل که در تاریخ ۱۴ مرداد ۱۴۰۴ (۵ آگوست ۲۰۲۵) رونمایی شد، قادر است محیطهای سهبعدی تعاملی را با کیفیت 720p و نرخ ۲۴ فریمبرثانیه در لحظه خلق کند. برخلاف روشهای سنتی که به داراییهای سهبعدی از پیش طراحیشده وابسته هستند، Genie 3 با استفاده از پرامپتهای متنی یا تصویری، دنیاهایی پویا و قابلنویگیشن میسازد که کاربران و ایجنتهای هوش مصنوعی میتوانند در آنها بهصورت بلادرنگ تعامل داشته باشند. این پیشرفت که به گفته دیپمایند گامی کلیدی به سوی هوش عمومی مصنوعی (AGI) است، کاربردهای گستردهای در آموزش، سرگرمی، بازیسازی و آموزش رباتها دارد.
Genie 3 نسبت به مدلهای قبلی خود، بهویژه Genie 2 که در دسامبر ۲۰۲۴ معرفی شد، جهشی قابلتوجه داشته است. در حالی که Genie 2 تنها برای ۱۰ تا ۲۰ ثانیه محیطهای تعاملی پایدار ایجاد میکرد، Genie 3 میتواند این پایداری را برای چند دقیقه حفظ کند و تا یک دقیقه حافظه بصری محیط را نگه دارد. این بدان معناست که اگر کاربر از شیئی مانند یک تابلو یا دیوار رنگی دور شود و دوباره به آن بازگردد، جزئیات آن دقیقاً همانگونه که بود باقی میماند. این ویژگی، که با معماری اتورگرسیو و بدون نیاز به مدلهای سهبعدی از پیش تعریفشده ممکن شده، محیطهایی با ثبات و فیزیک واقعگرایانه ایجاد میکند که برای آموزش ایجنتهای هوش مصنوعی، مانند SIMA، بسیار ارزشمند است.
یکی از نوآوریهای برجسته Genie 3، قابلیت «رویدادهای قابلتغییر با پرامپت» است که به کاربران اجازه میدهد با دستورات متنی، تغییراتی مانند افزودن شخصیتها، تغییر آبوهوا یا معرفی اشیای جدید را در محیط اعمال کنند. برای مثال، در یک دمو، دیپمایند نشان داد که چگونه میتوان در یک صحنه اسکی، گلهای از گوزنها را با یک پرامپت متنی اضافه کرد. این انعطافپذیری، همراه با توانایی شبیهسازی پدیدههای طبیعی مانند جریان آب، نورپردازی و تعاملات پیچیده محیطی، Genie 3 را به ابزاری قدرتمند برای توسعهدهندگان بازی، طراحان و پژوهشگران تبدیل کرده است. این مدل از ترکیب فناوریهای Genie 2 و Veo 3 (مدل تولید ویدئوی دیپمایند) بهره میبرد و بدون نیاز به موتور فیزیک سختکدنویسیشده، قوانین فیزیکی را بهصورت خودکار یاد میگیرد.
دیپمایند تأکید کرده که Genie 3 در حال حاضر برای عموم عرضه نمیشود و تنها در قالب یک پیشنمایش پژوهشی محدود در اختیار گروه کوچکی از پژوهشگران، آکادمیسینها و سازندگان قرار میگیرد. این تصمیم به دلیل نیاز به بررسی دقیق مخاطرات احتمالی، از جمله سوءاستفاده در ایجاد واقعیتهای مجازی گمراهکننده یا چالشهای مرتبط با تعاملات چندایجنتی، اتخاذ شده است. این مدل هنوز محدودیتهایی دارد؛ برای مثال، تولید متن خوانا در محیطهای مجازی تنها در صورتی ممکن است که در پرامپت ورودی مشخص شده باشد و شبیهسازیها برای ساعتها پایدار نمیمانند، که برای آموزش کامل ایجنتها ضروری است. همچنین، تعاملات ایجنتها به نویگیشن محدود است و توانایی استدلال پیشرفته برای تغییر محیط را ندارند.
کاربردهای Genie 3 فراتر از بازیسازی است. این مدل میتواند بهعنوان یک زمین آموزش برای رباتها و وسایل نقلیه خودران عمل کند، بهویژه در سناریوهای «چه میشود اگر» که در دادههای آموزشی اولیه وجود ندارند. به گفته شلومی فروختر، مدیر پژوهشی دیپمایند، این مدل میتواند با شبیهسازی سناریوهای پیچیده، مانند انبارهای پر از اشیا یا محیطهای طبیعی پویا، به افزایش ایمنی و کارایی ایجنتهای هوش مصنوعی کمک کند. جک پارکر-هولدر، دانشمند پژوهشی دیپمایند، نیز این مدل را گامی به سوی لحظهای مشابه «حرکت ۳۷» در بازی گو میداند، زمانی که AlphaGo استراتژی غیرمنتظرهای را ابداع کرد که نشاندهنده تواناییهای فراتر از درک انسانی بود.
دیپمایند که اکنون توسط یکی از توسعهدهندگان سابق Sora (ابزار تولید ویدیوی OpenAI) هدایت میشود، با تشکیل تیم تخصصی مدلهای جهانی در سال ۲۰۲۵، سرمایهگذاری عظیمی در این حوزه کرده است. این تیم با استفاده از منابع گسترده گوگل، Genie 3 را بهعنوان یک ابزار تحقیقاتی پیشرو طراحی کرده که میتواند در آموزش، طراحی محیطهای مجازی برای فیلمسازی، شبیهسازیهای آموزشی و حتی بازسازی مکانهای تاریخی مانند ونیز یا کنوسوس باستانی کاربرد داشته باشد. با این حال، نیاز به پردازش سنگین، مانند GPUهای قدرتمند، و محدودیتهای فعلی مانند عدم پشتیبانی از تعاملات چندایجنتی پیچیده، نشاندهنده چالشهای پیش رو است.
دیپمایند اعلام کرده که در حال بررسی راههایی برای گسترش دسترسی به Genie 3 در آینده است، اما فعلاً تمرکز بر بهبود قابلیتها و کاهش محدودیتهاست. این مدل که با دادههای ویدئویی عظیم آموزش دیده، نهتنها در شبیهسازی مناظر واقعی مانند درههای ایسلند یا مناطق آتشفشانی، بلکه در خلق دنیاهای تخیلی با جزایر شناور یا موجودات متحرک نیز موفق عمل کرده است. اگر به دنبال آیندهای هستید که در آن هوش مصنوعی دنیاهای تعاملی را در لحظه خلق کند، Genie 3 نشانهای از آن آینده است، اما برای دسترسی عمومی باید کمی بیشتر صبر کنید.