مدل یادگیری ماشینی فیسبوک توانایی مشاوره در زمینه مد و پوشش را دارد
آخرین تحقیقی که از فیسبوک منتشر شده، نشان میدهد وظایفی که مدلهای یادگیری ماشینی شرکت مذکور انجام میدهند شاید برای انسانها نسبتا معمولی باشد، اما برای کامپیوترها هنوز هم بهغایت دشوار است. این پروژهها با هدف ناشناسکردن چهرهی افراد، ایجاد توانایی شبیهسازی اعمال دست در ماشینهای مجازی و شاید پیچیدهتر از همه، مشاورهی معتبر در زمینهی مد راهاندازی شدهاند.
این تحقیقات اخیرا در میان دهها مقالهی دیگر از فیسبوک در کنفرانس بینالمللی Computer Vision (بینایی رایانهای) ارائه شد. شرکت یادشده سرمایهگذاری عظیمی را روی تحقیقات هوش مصنوعی، بهویژه بینایی رایانهای انجام داده است. بینایی رایانهای علمی میان رشتههای مختلف است که با چگونگی دستیابی کامپیوترها به سطحی بالا از درکِ عکسها و ویدئوهای دیجیتالی سروکار دارد. به بیان سادهتر بینایی رایانهای کمک میکند تا کامپیوترها تصاویر و ویدئوها را همانند انسان تجزیهوتحلیل کنند.
این روزها کاربران تغییر چهره در ویدئوها و تصاویر متحرک را به واسطهی فناوری دیپفیک و دیگر برنامههای ناهنجار شاهد هستند. اما تیم فیسبوک تصمیم گرفته تا بهصورت بالقوهای نوع بشردوستانهتری از فناوری یادشده را توسعه دهد. دیپفیک با استفاده از درک دقیقی از نشانهها و ویژگیهای چهره که از قبل تعبیه شده، عبارات و حرکات یک شخص را روی چهرهای کاملا متفاوت شبیهسازی میکند. تیم فیسبوک از همان نشانهها و ویژگیها استفاده میکند اما بهجای شبیهسازی چهرهی افراد، از المانهای یادشده استفاده کرده و با ایجاد اندکی تغییر در چهرهی کاربران، تصاویر را برای موتورهای جستوجویی که براساس تشخیص چهرهی اشخاص کار میکنند، غیر قابل تشخیص میکند.
افرادی که میخواهند در ویدئوها حضور داشته باشند اما فارغ از هر دلیلی بهصورت عمومی شناسایی نشوند، با کمک فناوری جدید فیسبوک میتوانند بدون استفاده از ماسک یا گریمهای سنگین با خیال راحت در ویدئوها ظاهر شوند. با این فناوری چهرهی کاربران در ویدئوها و تصاویر بهدست آمده اندکی شبیه به خودشان است، با اینکه تفاوت که برخی جزئیات دستخوش تغییر میشود. برای مثال چشمها اندکی گشادتر شده، دهان کوچکتر شده و پیشانی کوتاهتر میشود.
سیستمی که فیسبوک ساخته بهنظر خوب کار میکند، با این حال پیش از آنکه بهعنوان یک محصول پا به عرصه بگزارد، نیاز به اندکی بهینهسازی دارد. اما بهراحتی میتوان تصور کرد که فناوری مذکور تا چه حدی توانایی مفیدبودن را دارد. قابلیت یادشده برای اشخاصی که در معرضِ خطر مجازات توسط ستمگران سیاسی هستند یا بنا به ترجیحاتی که برای حفظ حریم خصوصی خود دارند نمیخواهند شناسایی شوند، سودمند خواهد بود.
در فضای مجازی شناسایی اشخاص تا حدودی میتواند دشوار باشد. قسمتی از این دشواری به دلیل فقدان گزینهی جستوجو براساس نشانههای غیر کلامی است که بهصورت روزمره در زندگی شاهدشان هستیم. قسمت دیگر از تحقیق فیسبوک مربوط به ضبط، دستهبندی و بازتولید این حرکاتِ غیر کلامی یا حداقل مربوط به حرکاتی است که افراد با دستانشان انجام میدهند. شاید فکر کردن به این موضوع اندکی خندهدار بهنظر آید، اما واقعا دادههای زیادی وجود ندارد که نشان دهد کاربران هنگام صحبتکردن، چگونه دستانشان را حرکت میدهند. بنابراین محققان دقیقا ۵۰ ساعت از مکالمهی افرادی که بهصورت دو به دو مکالمهای معمولی میکردند را ضبط کردند. مکالمهی افراد باید آنقدر عادی میبود که مناسب برای ابزارهای بالاردهی ضبط مکالمه باشد.
مکالمات نسبتا طبیعیِ مذکور که با حرکات دست و بدن همراه بود، توسط مدل یادگیری ماشینی به کار گرفته شد. مدل یادشده چگونگی معاشرتکردن را آموخت. برای مثال هنگامی که افراد در حال مکالمه از عبارت «در آن زمان» استفاده میکردند، آنها به پشت سرشان اشاره میکردند یا هنگام به کارگیری عبارت «همهجا-در همهجا» آنها با بالا بردن دستشان با ژستی خاص فراگیر بودن عبارت را تأیید میکردند.
سیستم جدید فیسبوک با نام ++Fashion با کتابخانهی عظیمی از تصاویری مانند کلاه، دامن و روسری و قابلیت مُدپذیری در مقیاس ذهنی، میتواند با نگاهکردن به سوژهای، پیشنهاداتی را در رابطه با تغییر پوشش ارائه دهد.
سؤال این است که قابلیت یادشده چه کاربردی دارد؟ شاید یکی از موارد استفادهی آن ایجاد مکالمات بهظاهر طبیعی در محیطهای مجازی باشد. اما این امکان نیز فراهم است آن دسته از تولیدکنندگان انیمیشن که دوست دارند حرکات کاراکترهایشان ریشه در زندگی واقعی داشته باشد، بدون اینکه خودشان مجبور به ثبت حرکات باشند، از حرکاتی که فیسبوک بهواسطهی برنامهی خود ثبت کرده استفاده کنند. بهنظر میرسد پایگاه دادهی فیسبوک از نظر مقیاس و جزئیات بسیار بزرگتر از فناوریهای موجود است، از این رو میتوان گفت سیستم مذکور در نوع خود ارزش بالایی دارد.
سیستم دیگری که در این تحقیقات به آن اشاره شده و همانند دو مورد قبلی بیهمتا است، ه البته کارایی کمتری دارد. سیستم سوم به کاربران کمک میکند تا نوع پوشش و استایلشان را بهتر کنند. اگر قرار بر این باشد که در آینده آینههای هوشمندی داشته باشیم، درست نیست که آنها قادر به ارائهی پیشنهادها برای کاربرانشان باشند؟
سیستم یادشده با نام ++Fashion با کتابخانهی عظیمی از تصاویری با برچسبهایی مانند کلاه، دامن و روسری که در خود جای داده و قابلیت مُدپذیری در مقیاس ذهنی، میتواند با نگاهکردن به استایلِ سوژهای که ورودی آن بوده است، پیشنهاداتی را در رابطه با تغییر پوشش و استایل ارائه دهد. تغییراتی که ++Fashion پیشنهاد میدهد پیچیده و کلی نبوده و تنها شامل اعمالی چون گزاشتن پیراهن زیر شلوار یا حذف یک لایه از لباسها است.
این فناوری به اندازهی یک دستیار دیجیتال در زمینهی مد کارایی ندارد، اما تحقیق مذکور نشان میدهد ++Fashion توانسته در همین ابتدای کار با ارائهی پیشنهاداتی برای سوژههای مختلف، نظر افراد در دنیای واقعی را به خود جلب کرده و حتی ایدهی خوبی بهنظر آید. اینکه برنامهی مذکور چگونه تا این حد از مدپذیری را دارد نشاندهندهی حیرتانگیز بودن ++Fashion است.
تحقیقات ICCV فیسبوک نشان میدهد که شرکت مذکور و محققان آن در جستوجوی پاسخ نسبتا همهجانبهای برای این سؤال هستند که بینایی رایانهای توانایی انجام چه کارهایی را دارد؟ اینکه بتوان چهرهها را در یک عکس سریعتر و دقیقتر شناسایی کرد، همیشه ویژگی مثبتی بوده و بهدردبخور است، اما مشخصا جنبههای مبهم و غافلگیرکنندهی دیگری در زندگی دیجیتال وجود دارد که میتوانند با ذرهای هوش بصری، بهبودهای چشمگیری را شاهد باشند.
نظرات