ابزار هوش مصنوعی Point-E با قابلیت تبدیل متن به مدل‌های سه بعدی

کد خبر : 14808
۰۴ دی ۱۴۰۱ - ۱۹:۴۸

ابزار هوش مصنوعی Point-E با امکان تبدیل داده‌های چندرسانه‌ای کاربران به مدل‌های سه‌بعدی منتشر شد. این هوش مصنوعی توسط استارتاپ OpenAI توسعه داده شده است.

استارتاپ فوق هوشمند OpenAI، ابزار هوش مصنوعی Point-E را با قابلیت تبدیل محتواهای چندرسانه‌ای به مدل‌های سه‌بعدی معرفی کرد. جالب است بدانید که یکی از بنیا‌ن‌گذاران این استارتاپ هوشمند، ایلان ماسک است که پیشتر نیز با این استارتاپ توانسته بود هوش مصنوعی DALL-E را معرفی کند. این هوش مصنوعی فقط امکان تبدیل متن به تصویر را داشت.

ابزار هوش مصنوعی Point-E معرفی شد

استارتاپ هوش مصنوعی OpenAI از انتشار جدیدترین مولد تصویرسازی خود با نام POINT-E خبر داد که می‌تواند براساس پیام‌های متنی کاربران، مدل‌های سه‌بعدی (به‌شکل ابر نقاط) تولید کند. در‌حالی‌که سیستم‌های موجود مانند DreamFusion گوگل برای تولید تصاویر خود معمولاً به چندین ساعت زمان و GPU نیاز دارند، Point-E کار خود را تنها با یک GPU و فقط در یک یا دو دقیقه انجام می‌دهد.

مدل‌سازی سه‌بعدی در صنایع و برنامه‌های مختلفی مورد استفاده قرار می‌گیرد. جلوه‌های CGI فیلم‌های پرفروش مدرن، بازی‌های ویدیویی، VR و AR، مأموریت‌های نقشه‌برداری دهانه ماه ناسا و همچنین دیدگاه متا برای متاورس، همگی به قابلیت‌های مدل‌سازی سه‌بعدی وابسته هستند.

با‌این‌حال، حتی با وجود تلاش انویدیا برای خودکارسازی تولید اشیا و برنامه موبایل RealityCapture اپیک گیمز که به کاربران اجازه می‌دهد با گوشی iOS خود، اشیا دنیای واقعی را به‌عنوان تصاویر سه‌بعدی اسکن کنند، ایجاد تصاویر سه‌بعدی فوتورئالیستی همچنان یک فرایند زمان‌بر است.

نحوه عملکرد هوش مصنوعی Point-E

سیستم‌های هوش مصنوعی تبدیل متن به تصویر مانند DALL-E 2 و Craiyon از OpenAI در سال‌های اخیر به‌سرعت محبوبیت زیادی پیدا کرده‌اند. تبدیل متن به مدل‌های سه‌بعدی نیز شاخه‌ای از این تحقیق محسوب می‌شود. POINT-E برخلاف سیستم‌های مشابه که از مجموعه بزرگی از گره‌ها (متن، تصویر) استفاده می‌کنند و به آن‌ها اجازه می‌دهد تا دستورات متنوع و پیچیده‌ای را دنبال کنند، روی مجموعه داده کوچک‌تری از گره‌ها (تصویر سه‌بعدی) آموزش داده شده است.

تیم OpenAI توضیح می‌دهد:

برای تولید یک شیء سه‌بعدی از یک متن، ابتدا یک تصویر با استفاده از مدل متن به تصویر نمونه‌برداری‌‌شده و سپس یک شیء سه‌بعدی براساس تصویر نمونه‌برداری‌شده تهیه می‌شود. هر دو این مراحل را می‌توان در چند ثانیه انجام داد و به روش‌های بهینه‌سازی گران‌قیمت نیاز ندارد.

به عنوان مثال، اگر به این سیستم یک پیام متنی مانند «گربه‌ای که بوریتو می‌خورد» را ارائه کنید، Point-E ابتدا یک نمای مصنوعی رندر سه‌بعدی از گربه در‌حال بوریتو خوردن ایجاد می‌کند. سپس تصویر تولید‌شده را از طریق یک سری مدل‌های انتشار اجرا می‌کند تا ابر نقطه سه‌بعدی و RGB تصویر اولیه را ایجاد کند. در این پروسه، ابتدا یک مدل ابری درشت ۱۰۲۴ نقطه‌ای و سپس یک مدل ۴۰۹۶ نقطه‌ای ظریف‌تر به کاربران ارائه خواهد شد.