ماسکها، عینکها، کلاهها و انواع دیگر محتوای مجازی که در اپلیکیشنهای مختلف از اینستاگرامگرفته تا یوتیوب استوریز روی چهرههای کاربران اضافه میشوند، جذابیت و زیبایی خاصی دارند. تابهحال از خود پرسیدهاید این جلوهها چگونه اجرا میشوند؟ بخش هوش مصنوعی گوگل بهتازگی مقالهای دربارهی همین جلوهها منتشر کرده که جزئیات آن را به بهترین نحو برای علاقهمندان توضیح میدهد.
مهندسان شاغل در مانتین ویو در مقالهای بلند، جزئیات فناوری هوش مصنوعی در هستهی استوری اپلیکیشنهای مختلف را فاش و نکاتی نیز دربارهی API مشهور آن ARCore ذکر کردند. طبق ادعای آنها، API مذکور میتواند انواع حالات از بازتاب نور محیط تا حالت چهره و حتی بازتاب نور از هر چهره را شبیهسازی کند. همهی آن موارد هم فقط به کمک دوربین و بهطور زنده اتفاق میافتند.
آرتیسام آبلاواتسکی و ایوان گریشنکو، متخصصان گوگل در بخش هوش مصنوعی، در مقالهی خود توضیح میدهند:
یکی از مشکلات اصلی در تولید قابلیتهای واقعیت افزوده، قراردادن محتوای مجازی در تصاویر دنیای واقعی است. آن فرایند به چندین فناوری بههمپیوسته نیاز دارد که توانایی ردگیری هندسهی سطوح در حالتهای بسیار پویای چهرهی افراد را داشته باشند؛ حالتهایی همچون خنده یا اخم یا پوزخند که هرکدام تغییراتی در سطوح چهرهی افراد ایجاد میکنند.
بخش اختصاصی گوگل در حوزهی واقعیت افزوده، از فناوری TensorFlow Lite استفاده میکند. آن فناوری نمونهای سبک از فریمورک یادگیری ماشین گوگل بهنام TensorFlow محسوب میشود که برای کاربردهای خاص بهینهسازی شد. در موقعیتهای مناسب، آنها از پردازش بهینهسازیشدهی سختافزارها بهره میبرند که دو شبکهی عصبی را باهم ترکیب میکند.
اولین شبکهی عصبی در فناوری اشارهشده تشخیصدهنده است که روی دادههای دوربین فعالیت و موقعیتهای چهره را پردازش میکند. شبکهی دوم مدل مِش سهبعدی نام دارد که از دادههای دریافتشدهی موقعیتی، برای پیشبینی هندسهی سطوح بهره میبرد.
چرا از رویکردی با دو مدل استفاده میشود؟ متخصصان گوگل دو دلیل را برای آن توضیح میدهند. استفاده از آن رویکرد نیاز به تقویت دیتاسِت با دادههای مصنوعی را کاهش میدهد و درنتیجه، سیستم هوش مصنوعی میتواند حداکثر ظرفیت خود را برای بهبود پیشبینی مختصات مِش بهکار گیرد. هر دو بخش، برای جانمایی دقیق محتوای مجازی در جلوهها حیاتی هستند.
درباره این سایت