یادگیری عمیق چگونه صنعت رسانه را متحول میکند؟
فعالان صنعت رسانه و استودیوهای فیلمسازی روزبهروز ظرفیتهای بیشتری در فناوریهای مدرن کشف میکنند که برای ارائهی نسل جدیدی از سرگرمیهای ویدئویی کاربرد دارند؛ فناوریهایی که محصولات آنها به تلویزیون و سینما و هر کانال مهم توزیع محتوای ویدئویی راه پیدا میکند. دراینمیان، هوش مصنوعی و یادگیری ماشین و یادگیری عمیق از مفاهیم پرسروصدایی هستند که امید به ظرفیتهای جدید برای تولید ویدئو و ویرایش را به فعالان صنعت تزریق میکنند.
یادگیری عمیق جدیدترین جبههی صنعت ویدئو محسوب میشود که امکان انجام فعالیتهای خودکار متعددی به متخصصان میدهد؛ فعالیتهایی که قبلا به روزها و هفتهها زمان نیاز داشتند. همچنین، برخی وظایف با استفاده از فناوری مذکور انجامدادنی میشوند که در گذشته بهنوعی غیرممکن بودند. درادامهی این مطلب زومیت، برخی از سؤالهایی را بررسی میکنیم که تأثیر یادگیری عمیق را روی صنعت رسانه شرح میدهند. این سؤالها عبارتاند از: یادگیری عمیق چه تفاوتی با دیگر الگوریتمهای یادگیری ماشین دارد؟ این فناوری چه کاربردهای واقعیای برای رسانه و سرگرمیهای ویدئویی دارد؟ یادگیری عمیق چه شاخههایی در حوزههای علمی و کسبوکار دارد؟
هوش مصنوعی و یادگیری ماشین و یادگیری عمیق
هوش مصنوعی به هرگونه فرایندی گفته میشود که کامپیوتر را هوشمند نشان دهد. در برخی موارد، به کامپیوتر گفته میشود درصورت بروز هر رخداد، چه عملیاتی انجام دهد. در چنین وضعیتی، ماشین مذکور هیچ مفهومی نیاموخته است. یادگیری ماشین توانایی یادگیری را به کامپیوتر اضافه میکند تا انجام وظایف مشخص را بیاموزد.
روشهای متعددی برای آموزش دادن به کامپیوترها وجود دارد. تقریبا تمامی روشها مبتنیبر تغییر پارامترها بهدست ماشین و فرایندهای آزمونوخطا هستند. از روشهای پیچیدهی یادگیری ماشین میتوان به شبیهسازی نورونهای مغز بیولوژیکی اشاره کرد. وقتی مغزهای ساختگی یا همان شبکهی عصبی پیچیدهتر ساخته شوند، به مفهوم یادگیری عمیق میرسیم.
یادگیری عمیق به ماشین امکان میدهد مفهومی پیچیده را بهعنوان ورودی دریافت کند. بهعنوان مثال، میتوان به تمام پیکسلهای موجود در یک فریم ویدئو اشاره کرد. در یک نمونه میتوان فریم ویدئویی را با نویز به شبکهی عصبی وارد و در خروجی، فریم باکیفیت دریافت کرد. شبکهی مذکور با انجام آزمونوخطا، چگونگی حذف نویز از فریم را میآموزد. هرچه تعداد تصاویر ورودی بیشتر شود، مغز مصنوعی تکرار فرایند حذف نویز را بهتر میآموزد و این فرایند را برای تصاویر جدید هم انجام میدهد.
از اولین کاربردهای خارقالعادهی یادگیری ماشین میتوان به پروژهی گوگل اشاره کرد که بازی Go را به کامپیوتر آموخت. Go از پیچیدهترین بازیهای تخته محسوب میشود و امروز هوش مصنوعی گوگل توانایی شکست قهرمانهای آن را نیز دارد. پیچیدگی بازی Go بهحدی است که نمیتوان با دستورهای سادهی انسانی آن را به کامپیوتر آموزش داد. بهعلاوه شبکهی عصبی تکلایه نیز توانایی آموزش آن را ندارد و فقط با یادگیری عمیق میتوان به چنین دستاوردی رسید.
یادگیری ماشینی و یادگیری عمیق، هوش مصنوعی را یک مرحله بالاتر از دریافت دستور توسعه میدهند
یادگیری عمیق برای وظایف متنوع دیگری هم کاربرد دارد. از این فناوری برای بررسی و مقایسهی صحبتکردن ساختگی با صحبتکردن انسان استفاده میشود. درنتیجهی چنین کاربردی، برنامههای تبدیل متن به صوت عملکرد طبیعیتر پیدا میکنند. شرکتهای تولیدکنندهی ابزار ترجمه با استفاده از فناوری مشابه، چگونگی ترجمه از زبانی به زبان دیگر را به کامپیوترها میآموزند.
خودروهای خودران که امروزه جزو پروژههای اصلی بسیاری از شرکتهای فناوری هستند، براساس یادگیری عمیق عمل میکنند. از مثالهای دیگر میتوان به واحد بازاریابی در شرکتهای بزرگ اشاره کرد که با استفاده از یادگیری عمیق، رفتار مشتریها را تحلیل میکنند. آنها با تکیه بر همین یادگیری، واکنش هر مشتری را در موقعیتهای خاص پیشبینی میکنند. دستیارهای دیجیتال هم از حوزههای کاربردی این فناوری هستند که با استفاده از شبکهی عصبی، درخواستهای کاربران را درک میکنند و به آنها پاسخ میدهند.
یادگیری عمیق برای تلویزیون و سرگرمیهای ویدئویی
فرصتهای متعددی برای بهکارگیری روشهای یادگیری عمیق در حوزهی تولید ویدئو و ویرایش و بخشهای دیگر وجود دارد. البته این فناوری در تولید ویدئو به خودکارسازی وظایف تکراری محدود نمیشود؛ بلکه میتوان در فرایندهای تولید خلاقانه نیز از آن استفاده کرد. بهعلاوه بهبود فرایند توزیع ویدئو و حفظ آرشیوهای بزرگ استودیوهای فیلمسازی نیز با یادگیری عمیق ممکن میشود.
تولید و ویرایش ویدئو
استودیو برادران وارنر در یکی از پروژههای اخیر بهنام Justice League، هزینهای ۲۵ میلیون دلاری برای اصلاح مجدد فیلم متقبل شد. بخشی از هزینه به پاککردن دیجیتالی سبیل یکی از بازیگران (هنری کویل) اختصاص یافت که بهخاطر پروژهی مشترک دیگر، نمیتوانست سبیل خود را بتراشد. این نمونه، تنها یکی از مثالهای بیشمار فرایند پستولید محسوب میشود که هزینه و زمان زیادی به استودیوها تحمیل میکند. یادگیری عمیق تأثیری تحولآفرین بر چنین روندهایی خواهد گذاشت.
راهکارهای ساده و مخصوص مصرفکننده برای استفاده از یادگیری عمیق در تولید ویدئو امروز دردسترس کاربران قرار دارند. بهعنوان مثال، میتوان به Flo اشاره کرد که با استفاده از فناوری مذکور و دریافت آنچه کاربر نیاز دارد، ویدئو را برای او میسازد. ابزار Flo ویدئوهای مرتبط را از کتابخانهی دادهی کاربر پیدا و آنها را بهصورت خودکار بههم متصل میکند.
گوگل ابزاری بهصورت شبکهی عصبی دارد که بهصورت خودکار تصاویر پیشزمینه و پسزمینهی ویدئو را از هم جدا میکند. چنین فرایندی قبلا به پردهی سبز نیاز داشت و اگنون با سرعت و بهرهوری بیشتری ازطریق یادگیری عمیق انجام میشود.
دیپ فیک اخیرا اخبار متعددی در دنیای فناوری به خود اختصاص داده است. با استفاده از این فناوری، چهرهی فردی در ویدئو فردی دیگر استفاده میشود. فناوری مشابه دیگری هم وجود دارد که پرترههای ثابت را متحرک میکند. ظرفیتهای فناوری اینچنینی در بخش جلوههای ویژهی تولید فیلم بیشمار هستند. بهعنوان مثالی از کاربردهای دیپفیک، میتوان همان پروژهی برادران وارنر را مثال زد. هنری کویل در بخش اصلاح مجدد فیلم سبیلی داشت که برای فیلم Mission Impossible; Fallout باید آن را حفظ میکرد. در همان زمان، او در پروژهی Justice League هم درگیر بود و همین تداخل موجب ناراحتی طرفداران هم شد. بههرحال، او تصمیم گرفت سبیل خود را برای Justice League نتراشد؛ به همین دلیل، تیم ویرایش پروژهی مذکور به حذف دیجیتالی آن در هر صحنهای ملزم شد که هنری بازی میکرد.
دیپفیک میتواند بسیاری از هزینههای پستولید را جبران کند
متأسفانه طرفداران فیلم Justice League متوجه عملکرد ویرایشگران ویدئو شدند. وقتی کاربران خانگی میتوانند چهرهی نیکولاس کیج را در فیلمهایی وارد کنند که هیچگاه بازی نکرده است؛ چرا استودیو برادران وارنر در پروژهی خود از این فناوری استفاده نکرد؟ آنها میتوانستند با استفاده از تصاویر هنری کویل در صحنههای قبلی (بدون سبیل)، بهراحتی صحنههای پستولید را تولید و هزینه و زمان زیادی صرفهجویی کنند.
ترمیم ویدئو
آمار آرشیو UCLA Film & Television ادعا میکند تقریبا نیمی از فیلمهای تولیدشده پیش از سال ۱۹۵۰ از بین رفتهاند. در آماری بدتر میبینیم که ۹۰ درصد از کپی فیلمهای کلاسیک در وضعیت مناسبی قرار ندارند. فرایند ترمیم این ویدئوها زمانبر و خستهکننده و هزینهبر است. یادگیری عمیق در چنین شرایطی کاربرد دارد و تغییری عظیم در فرایند ترمیم ایجاد میکند.
فرایند رنگیکردن فیلمهای سیاهوسفید همیشه زمانبر بوده است. هزاران فریم در یک فیلم وجود دارد و رنگیکردن هریک از آنها زمان زیادی میطلبد. حتی با ابزارهای بسیار حرفهای هم فقط میتوان بخشی از فرایند را خودکارسازی کرد. انویدیا اکنون ابزاری دارد که با استفاده از یادگیری عمیق، فرایند رنگیکردن را بسیار سریعتر میکند. ابزار آنها فقط هنرمند ویرایشگر را به رنگیکردن یک فریم ملزم میکند. پس از آن مرحله، یادگیری عمیق سایر فرایندهای رنگیکردن را انجام میدهد.
از مشکلات بزرگ دیگر در تریم ویدئوها میتوان به حذف برخی از فریمها اشاره کرد. قطعا فعالان این صنعت توانایی بازسازی و فیلمبرداری فریمهایی را ندارند که سالها پیش تولید شدند. ترمیم آن فیلمها قبلا کارآمد نبود؛ اما اکنون فناوری گوگل برای کمک به این بخش وارد عمل شده است. آنها ابزارهایی ساختهاند که فریمهای ازدسترفته را براساس فریمهای قبل و بعد با کیفیتی نزدیک به واقعیت بازسازی میکنند.
تشخیص چهره یا اجسام
یادگیری عمیق با تشخیص چهرهی افراد حاضر در ویدئو، قابلیت دستهبندی دقیقی ارائه میکند. بهعنوان مثال، میتوان در آرشیو فیلمها، ویدئوهایی پیدا کرد که بازیگر خاصی در آنها حضور دارد. در رویکردی دیگر، میتوان زمان دقیق حضور بازیگر را در فیلم مدنظر محاسبه کرد. بهعنوان نمونهای جدید، میتوان به رویکرد شبکهی Sky News اشاره کرد که با بررسی ویدئوهای مراسم عروسی سلطنتی، چهرههای مشهور در آن را پیدا کرد.
فناوری مذکور فقط به تشخیص چهره در ویدئوها محدود نمیشود. رسانههای ورزشی امروزه از فناوری بهکمک فیلمبردارها استفاده میکنند تا حرکت توپ یا دیگر مؤلفههای بازی مانند گل را شناسایی کنند. هوش مصنوعی با استفاده از ابزار تشخیص اجسام، خودکارسازی فرایندهای رسانهای ورزشی را هم ممکن میکند.
تحلیل ویدئو
همانطورکه گفتیم، ابزار Flo توانایی تشخیص موضوع صحنه و ساخت ویدئو براساس آن را دارد. از همین فناوری میتوان برای دستهبندی و مرتبکردن ویدئوها هم استفاده کرد؛ درنتیجه، کاربر میتواند قطعهی مخصوصی از ویدئو را پیدا کند که شخص یا جسم یا حرکت خاصی در آن حضور داشته باشد.
با استفاده از فناوری گفتهشده، میتوان حتی محتوای ایراددار را از ویدئوها حذف کرد تا محصول نهایی برای کاربر هدف مناسب باشد. در رویکردی مشابه، میتوان ویدئوهای جدید را براساس علایق قبلی کاربر به او پیشنهاد داد و بهنوعی فهرستی شخصیسازیشده از محتوای رسانهای ارائه کرد.
بهبود پخش ویدئویی
یادگیری عمیق محتوای باکیفیت را برای اینترنت با سرعت کُند بهینهسازی میکند
اکنون در مسیری قرار داریم که استریم با کیفیت 4K و تولید تلویزیونها و نمایشگرهای 8K به روندی مرسوم در جهان فناوری تبدیل شدهاند. درنتیجهی همین افزایش کیفیت، استریم حجم بیشتری از داده مصرف میکند. افرادی که به اتصال پرسرعت دسترسی ندارند، قطعا با مشکلات افزایش حجم داده آشنا هستند. اگر شما نمایشگر 4K داشته باشید؛ اما سرعت اینترنت برای ارائهی محتوای مدنظر کافی نباشد، قطعا بهرهای از خرید جدید خود نخواهید برد.
شبکههای عصبی میتوانند فریمهای باکیفیت را برای ورودیهایی با ظرفیت کم بازسازی کنند؛ بنابراین در آیندهی نزدیک، میتوان محتوایی با مصرف دادهی کمتر و کیفیت بیشتر را برای کاربران دارای اینترنت کمسرعت ارائه کنیم.
آیندهی یادگیری عمیق و رسانه
استفاده از یادگیری عمیق در تولید ویدئو اکنون در ابتدای راه قرار دارد. درواقع، آیندهای که برای چنین فناوریهایی وجود دارد، بسیار پربارتر خواهد بود؛ آیندهای که صنعت ویدئو را هم بیشازپیش تحتتأثیر قرار میدهد. بههرحال، یادگیری عمیق نیز مانند بسیاری از فناوریهای دیگر بدون مشکل و ضعف نیست. همانطورکه دیپفیک مشکلاتی برای توانایی تشخیص حقیقت در کاربران ایجاد میکند، پیشرفت سریع بهکارگیری یادگیری عمیق هم مشکلاتی از جنس حریم خصوصی و موارد مشابه خواهد داشت.
با توجه به نگرانیهای مذکور، صنعت باید مانند هر فناوری جدید دیگر مشکلات را شناسایی و برای رفع آنها تلاش کند. فعالان صنعت ویدئو و متخصصان فناوری باید با همفکری استانداردهایی برای تعریف چگونگی استفاده از فناوری تدوین و بهنوعی آیندهی قابلپذیرش را ترسیم کنند. درنهایت، با درپیشگرفتن رویکرد صحیح، قطعا کاربردهای بیشماری برای فناوری موجود ترسیم میشود و ابزارهای بسیار مفیدی دراختیار فعالان خواهد بود. همانطورکه فناوریهای پیشین مانند رنگیکردن فیلمها تأثیری عمیق بر صنعت رسانه گذاشتند، یادگیری عمیق نیز در آیندهی نهچندان دور تحولی عظیم در آن ایجاد خواهد کرد.
نظرات