هوش مصنوعی گوگل قادر به تشخیص چهره در تصاویر بهشدت بیکیفیت است
پژوهشگران علوم کامپیوتر در گوگل برین (Google Brain)، واحد مرکزی هوش مصنوعی گوگل، نشان دادهاند که نهتنها قادر به بهینهسازی رزولوشن یا وضوح تصاویر هستند؛ بلکه میتوانند طی این فرآیند، جزئیات ازدسترفتهی تصویر را نیز بازسازی کنند. ۳ پژوهشگر از این شرکت مستقر در سیلیکون ولی در مقالهی به نام Pixel Recursive Super Resolution، سیستم خود را روی تصاویر کوچک ۸ در ۸ پیکسل از چهرهی افراد معروف و تصاویری از اتاق خواب آزمایش کردند.
روند کار بدین صورت بود که یک شبکهی عصبی یادگیرنده و یک شبکهی عصبی اولیه در ترکیب با یکدیگر، تصاویر را تجزیه و تحلیل کردند تا نسخههایی با تفکیکپذیری بالاتر ۳۲ در ۳۲ پیکسل تهیه کنند. در این فرآیند، تصاویر تار و غیر قابل تشخیص، به تصاویری تبدیل شدند که بهطور واضح چهرهی یک انسان یا یک اتاق خواب را نشان میدادند.
این سیستم هوش مصنوعی بهطور ویژه با بهرهگیری از یک رویکرد دوجانبه عمل میکند. شبکهی یادگیرنده، تصاویر با وضوح پایین را با تصاویر باکیفیت مقایسه میکند تا چهره یا اتاق درون تصویر را تشخیص دهد. پژوهشگران توضیح میدهند که مقایسهی تصاویر بیکیفیت با تصاویر با وضوح بالا، از طریق کاهش سایز تصاویر بزرگ به اندازهی مشابه ۸ در ۸ پیکسل امکانپذیر است.
این پژوهشگران در مقالهی خود مینویسند:
هنگامی که برخی از جزئیات در تصاویر منبع موجود نباشد، نهتنها شفافسازی تصویر به یک چالش تبدیل میشود؛ بلکه بازسازی جزئیات تصویر جدید به نحوی که برای یک ناظر انسانی قابل قبول به نظر برسد، چالش بعدی بهحساب میآید.
هنگامی که هر دو تصویر به یک اندازه باشند، تشخیص پیکسلها و چهرههای مشابه بین نسخههای متفاوت، برای هوش مصنوعی نسبتا آسان میشود. برای مثال، این سیستم میتواند گوش یک چهرهی بهخصوص را تشخیص دهد و آن را با پیکسلها در تصاویر دیگر مقایسه کند.
بهمحض آنکه نخستین شبکهی هوش مصنوعی نقش خود را به اتمام رساند، پژوهشگران گوگل از پیکسلسیانان استفاده میکنند تا پیکسلهای اضافه را به تصویر ۸ در ۸ پیکسل بیفزایند. آنطور که وبسایت Ars Technica توضیح میدهد، پیکسلسیانان با بهرهگیری از آنچه دربارهی انواع تصاویر مشخص میداند، جزئیات را اضافه میکند. لبها ظاهرا سایهای از رنگ صورتی دارند؛ در نتیجه پیکسلهای صورتی به نقاطی که به همان صورت شناسایی شدهاند، افزوده میشود.
در پایان فرآیند هر یک از شبکههای عصبی، پژوهشگران گوگل نتایج را ترکیب میکنند تا یک تصویر نهایی بهوجود آورند. آنها فرآیند افزودن جزئیات را به نحوهی کار یک هنرمند تشبیه میکنند. آنها مینویسند: «یک هنرمند با ترکیب دانش قبلی از چهرهها و تغییرات معمول آنها، میتواند با جزئیات قابل قبول نقاشی کند.»
پژوهشگران بهمنظور اثبات قابل قبول بودن تصاویر ساختهشده، سیستمشان را روی داوطلبان انسانی آزمایش کردند. آنها به گروهی از شرکتکنندگان، یک تصویر واقعی از چهرهی افراد معروف در کنار تصویر ساختهشده توسط هوش مصنوعی نشان دادند. سپس از آنها خواسته شد حدس بزنند که کدام تصویر با دوربین گرفته شده است. در نهایت، ۱۰ درصد مواقع داوطلبان فریب خوردند (۵۰ درصد امتیاز کامل بهحساب میآید). برای تصاویر اتاق خواب، ۲۸ درصد افراد توسط تصویر مصنوعی فریب خوردند. هر دوی این ارقام در مقایسه با روش مقیاسبندی دومکعبی معمولی که قادر به فریب هیچ انسانی نیست، امتیازهایی قابل توجه بهحساب میآیند.
در آینده و با پیشرفت بیشتر، امکان توسعهی سیستمهای مشابه بهمنظور افزودن جزئیات به فیلمها و ویدئوهای بیکیفیت نیز وجود خواهد داشت. این فناوری میتواند در بهبود تصاویر بیکیفیت ثبتشده با دوربینهای امنیتی و مداربسته، تأثیر فراوانی داشته باشد و به شناسایی مجرمان کمک کند. با این حال، این روش هنوز با تمام پایگاههای دادهی تصاویر آزمایش نشده است و در حال حاضر تولیدات هوش مصنوعی در واقع «بهترین حدس ماشین» محسوب میشوند، نه تصاویری کاملا دقیق.
نظرات