صدای انسان یا هوش مصنوعی؟ چالش تمایز در عصر فناوری پیشرفته
جمعه ۱۶ آذر ۱۴۰۳ - ۱۷:۰۰مطالعه 8 دقیقهخلاصه مقاله:
- با پیشرفت تکنولوژی، صداهای ساختهشده توسط هوش مصنوعی بهتر و طبیعیتر میشوند و نگرانیهایی را در مورد استفاده از آنها برای انتشار اطلاعات نادرست، ارتکاب کلاهبرداری یا آسیب رساندن به شهرت افراد ایجاد میکنند.
- افراد مشهور و افراد عادی به طور یکسان با خطر روبرو هستند. به عنوان مثال، از صدای چهرههای عمومی برای سرگرمی یا اطلاعات نادرست سوءاستفاده میشود، در حالی که افراد غیرسلبریتی، موارد آزار و اذیت و کلاهبرداری را تجربه میکنند.
- فناوریهایی مانند واترمارک دیجیتال محتوای تولیدشده توسط هوش مصنوعی یا ابزار تشخیص محتوای AI برای مبارزه با سوء استفاده پیشنهاد شده، اما اجرای آن ها هنوز در مراحل اولیه است.
- راهایی برای تشخیص صدای هوش مصنوعی از صدای انسان وجود دارد. الگوهای تنفسی، تاکید، لحن و جملهبندی میتواند سرنخی برای شناسایی باشد، اگرچه هوش مصنوعی در حال یادگرفتن برای افزایش شباهت صدای خود به انسان است.
- هوش مصنوعی اکنون در تقلید خصلتهای گفتاری طبیعی بسیار ماهر است و تقلیدهای صوتی تولیدشده توسط هوش مصنوعی میتوانند حتی سیستمهای اعتبارسنجی صوتی را فریب دهند.
- شرکتها در حال ساخت ابزارهای تشخیص هوش مصنوعی هستند که برخی از آنها از قبل روی کامپیوترهای شخصی و دستگاههای تلفن همراه نصب میشوند.
- تعاملات چهرهبهچهره ممکن است در تأیید صحت پیامهای دریافتی در دنیای دیجیتال دوباره اهمیت پیدا کند؛ زیرا تشخیص دیپفیکهای هوش مصنوعی دشوارتر میشود.
این روزها گفتگو با هوش مصنوعی بسیار آسان است. میتوانید از چتباتها سوال بپرسید و آنها حتی به صورت شفاهی پاسخ جذابی را ارائه خواهند داد. حتی میتوانید با چتباتهای هوش مصنوعی با چندین زبان مختلف صحبت کنید و با گویش یا لهجهی خاصی درخواست پاسخ دهید.
اکنون حتی امکان استفاده از ابزارهای شبیهسازی گفتار مبتنی بر هوش مصنوعی برای تقلید صدای انسانهای واقعی وجود دارد. استفاده از صداهای تقلیدشدهی افراد معروف برای ساخت محتوا برای همه خوشایند نیست. در برخی موارد از این فناوری برای کلاهبرداری و فریب افراد برای دزدی استفاده میشود.
تمامی صداهای تولیدشده توسط هوش مصنوعی برای مقاصد بد استفاده نمیشوند. چتباتهای ساختهشده از مدلهای زبانی بزرگ، پیشرفت میکنند تا بتوانند به روشی بسیار طبیعیتر و قانعکنندهتر صحبت کنند. برای مثال، عملکرد صوتی ChatGPT اکنون میتواند با استفاده از تغییرات لحن و تأکید بر کلمات خاص به روشهای بسیار مشابهی که یک انسان برای انتقال همدلی و احساس نیاز دارد پاسخ دهد. همچنین میتواند نشانههای غیرکلامی مانند آه کشیدن و هقهق کردن را متوجه شود، به ۵۰ زبان صحبت کند و میتواند به صورت دینامیک لهجهاش را بلادرنگ در طول مکالمه تغییر دهد و حتی قادر است از طرف کاربران تماس تلفنی برقرار کند.
تمام قابلیتهای واقعگرایانهی صدای هوش مصنوعی سوالی جالب را مطرح میکند: آیا ویژگی منحصربهفردی در صدای انسان وجود دارد که به ما کمک کند آن را از گفتار رباتی تشخیص دهیم؟
جاناتان هرینگتون، استاد آوایی و پردازش گفتار دیجیتال در دانشگاه مونیخ آلمان، تحت تأثیر پیشرفتها در ساخت صدای مبتنی بر هوش مصنوعی قرار گرفته است. او خاطرنشان میکند که تشخیص صداهای تولیدشده توسط هوش مصنوعی و صداهای واقعی، چالشبرانگیز شده؛ بااینحال، او معتقد است هنوز نشانههایی برای شناسایی صداهای هوش مصنوعی وجود دارد.
کانر گرنان، معمار ارشد هوش مصنوعی از مدرسه کسبوکار استرن دانشگاه نیویورک، برای آزمایش تشخیص صدای انسان از هوش مصنوعی در پروژهای با همکاری بیبیسی یک جفت کلیپ صوتی ساخت که متنی از داستان «آلیس در سرزمین عجایب»، اثر لويئس کارول بود. یکی از کلیپها توسط گرنان خوانده شده و دیگری توسط ابزار هوش مصنوعی ElevenLabs تولید شده است. چالش این بود که آیا شنوندگان میتوانند تفاوت بین صدای انسان و صدای تولیدشده توسط هوش مصنوعی را تشخیص دهند یا خیر.
پخش از رسانه
میتوانید بگوید کدام صدا متعلق به انسان است؟
در یک آزمایش غیررسمی، حدود نیمی از شرکتکنندگان نمیتوانستند صداهای تولیدشده توسط انسان و هوش مصنوعی را تشخیص دهند. تشخیص، تنها با گوشدادن دشوار بود. نشانههای ظریف مانند صدای نفسگرفتن سریع، صدای انسان را نشان میدهد؛ در حالی که وزن، آهنگ و تونالیته به صدای هوشمصنوعی اشاره میکنند. برای کسی که برای تشخیص این تفاوتها آموزش ندیده، تشخیص گفتار انسان و هوش مصنوعی دشوار است؛ زیرا این نشانهها اغلب ظریف هستند.
انسانها بهطور کلی در تشخیص دیپفیک عملکردی ضعیف دارند؛ اما نرمافزارهای تخصصی میتوانند دراین زمینه کمککننده باشند. نمونههایی از ترکیب صداهای واقعی و جعلی ممکن است در کلاهبرداری استفاده شوند؛ مانند ویدیویی از بیل گیتس که محصولی جعلی را تبلیغ میکند. بهترین کار این است که مراقب محتوای مشکوک باشید و احتیاط را در نظر بگیرید.
- همهچیز درباره دیپ فیک؛ وقتی تکنولوژی مرز واقعیت و دروغ را از بین میبرد6 بهمن 01مطالعه '17
پیت نیکولتی، مدیر ارشد امنیت اطلاعات جهانی «چک پوینت»، شرکت محصولات امنیت رایانهای، در چالش «آلیس در سرزمین عجایب» بیبیسی دچار مشکل شد. او گفت:
ما در جامعهای زندگی میکنیم که کلونهای صوتی تولیدشده توسط هوش مصنوعی میتوانند حتی سیستمهای اعتبارسنجی صدای شرکتهای کارت اعتباری را فریب دهند- پیت نیکولتی
نیکولتی میگوید معمولاً هنگام پخش صدا به الگوهای گفتاری غیرطبیعی مانند مکثهای نامنظم و جملهبندیهای نامناسب گوش میدهد. تحریفها و نویزهای پسزمینه نامناسب شناسایی را آسانتر میکند. او همچنین به تغییرات محدود در حجم، آهنگ و لحن گوش میدهد، زیرا صداهایی رباتی که تنها از چند ثانیه صحبت یک انسان شبیهسازی میشوند، ممکن است دامنهی کامل صدای انسان را نداشته باشند. نیکولتی تأکید میکند که شبیهسازیهای صوتی هوش مصنوعی حتی میتوانند سیستمهای اعتبارسنجی صدای شرکتهای کارت اعتباری را فریب دهند.
کارشناسان، گفتار تولیدشده توسط هوش مصنوعی را توسط تغییر تن صدا و تنفس، تاکید و لحن در گفتار تشخیص میدهند؛ زیرا انسانها از این صداها برای افزودن معنا و زمینه به جملات استفاده میکنند.
هرینگتون میگوید گوشدادن به پستیوبلندی صدا یا تاکید کلماتی که در جمله استفاده میشوند، میتواند ترفند خوبی برای تشخیص گفتار تولیدشده توسط کامپیوتر باشد، زیرا انسانها از تأکید برای معنیدادن بیشتر به یک جمله در متن سخن استفاده میکنند.
لحن یا تغییر زیروبم صدا در یک جمله، میتواند کلمات را طوری بیان کند که جملهی خبری به پرسش تغییر کند. جملهبندی نیز عامل مهمی است. نحوهی شکستن یک جمله نیز میتواند معنای آن را تغییر دهد.
تاکید، لحن و جملهبندی، نوای گفتار در سطح جمله هستند
تاکید، لحن و جملهبندی، این سه عنصر گفتار با هم، به عنوان نوای گفتار در سطح جمله شناخته میشوند. هرینگتون میگوید: «این یکی از راههایی است که گفتار تولیدشده توسط کامپیوتر بسیار ضعیف بوده و شبیه انسان نیست.» اما با پیشرفت فناوری، هوش مصنوعی در تکرار این جنبههای گفتار نیز مهارت بیشتری پیدا میکند.
کارشناسان امنیت سایبری و فناوری بهویژه نگران شبیهسازی صدا هستند که تهدیدی واقعی برای مشاغل است. به عنوان مثال، آساف راپوپورت، مدیر عامل Wiz، حادثهای را تعریف میکند که در آن کلاهبرداران یک شبیهساز صوتی از او ایجاد کردند تا پیام صوتی جعلی برای کارمندان بفرستند و بتوانند اعتبارنامهها را سرقت کنند. اگرچه تلاش کلاهبرداران ناموفق بود، به عنوان زنگ هشدار عمل کرد.
در موردی دیگر، مدیر مدرسهای پس از اینکه کلیپ صوتی جعلی نشان میداد اظهاراتی عمیقا توهینآمیز بیان میکند، تهدید به مرگ شد. در مورد دیگری، کلاهبرداران از اعضای خانوادهای از طریق تماسهای تلفنی با استفاده از شبیهسازی صوتی عزیزانشان پول دزدیدند.
کارشناسان توصیه میکنند که برای احراز هویت از روشهای جایگزین استفاده کنید. مثلاً در خانه، از گذرواژههای خانوادگی استفاده کنید و در محل کار قبل از هر اقدامی پیامهای صوتی را تأیید کنید. همچنین میتوانید سوالات شخصی مانند آهنگ مورد علاقهی فرد را بپرسید. اما بهترین کار این است که اگر به پیام مشکوکی برخوردید، بگویید با او (فرستندهی پیام) تماس میگیرید و سپس با شمارهای که از قبل دارید، تماس بگیرید.
بسیاری از سیستمهای صوتی هوش مصنوعی با صحبتکردن در طیف وسیعی از صداها و زیروبم مشکل دارند
تشخیصدادن صدای هوش مصنوعی و صدای انسان در دو کلیپ صوتی «آلیس در سرزمین عجایب» برای هرینگتون و همکارانش در موسسه آواشناسی دانشگاه مونیخ سخت بود. آنها خاطرنشان کردند که تغییرات در سرعت گفتار و میزان تنفس، که معمولاً ویژگیهای انسانی هستند، گاهیاوقات در صداهای هوش مصنوعی مشهودتر است.
بهداخلکشیدن هوا هنگام صحبت نیز یکیدیگر از نشانههای مشخص برای تشخیص گفتار است. در دو کلیپ صوتی نکتهی عجیبی راجعبه نحوهی نفسگیری بین صحبتها وجود داشت. هرینگتون و همکارانش همچنین گفتند متوجه شدهاند که تنفس در یکی از کلیپهای «آلیس در سرزمین عجایب» تقریباً بیشازحد دقیق و منظم است که بتواند متعلق به انسان باشد؛ اما معلوم شد که اشتباه کردهاند و نمونهی موردنظرشان صدای انسان است.
بهتکاپوافتادن متخصصان برای تمایز هوش مصنوعی از صدای انسان، قابلیتهای پیشرفته هوش مصنوعی در تقلید گفتار انسان را برجسته میکند. هرینگتون نسبت به توانایی هوش مصنوعی در اعمال صحیح نوای گفتار ابراز نگرانی کرد. هرینگتون میگوید بااینحال راه دیگری برای تشخیص صدای انسان از صدای هوش مصنوعی وجود دارد. او پیشنهاد میکند از چیزی به نام کاهش تکیهگذاری آوایی (Prosodic Deaccenting) استفاده کنید. مثال زیر را در نظر بگیرید:
سوال: آیا جان هنوز «دوران مشقت» را نخوانده است؟
پاسخ: جان از دیکنز خوشش نمیآید.
نکتهی کلیدی، تاکید بر کلمهی خوشش نمیآید است. این تأکید فقط در مورد احساسات جان نسبت به کتاب «دوران مشقت» نیست، بلکه بیشتر نسبت به چارلز دیکنز، نویسندهی کتاب است. هرینگتون میگوید: «ترکیب این نوع گفتوگوها با آوای طبیعی ممکن است هنوز برای بسیاری از سیستمهای هوش مصنوعی سخت باشد، زیرا به دانشی از جهان نیاز دارد که فراتر از کلمات چاپشده در صفحه است.» مدلهای زبانی بزرگ حتی ممکن است استفاده از جنبههای آوایی صحیح را نیز به زودی توسط مجموعه دادههای بزرگی از اینترنت یاد بگیرند، زیرا خود را برای صحبت انسانیتر آموزش میدهد.
- ChatGPT اکنون میتواند ببیند و بشنود و حرف بزند!3 مهر 02مطالعه '1
- چتبات ChatGPT حالا میتواند پاسخها را با صدای بلند بخواند15 اسفند 02مطالعه '1
سرویسهای اصلی گفتار آوایی هوش مصنوعی مانند عملکرد صوتی چتجیپیتی درحالحاضر نیز توانایی دارند بخندند، زمزمه کنند، حرفشان توسط شما قطع شود و سپس به آنچه میگفتند ادامه دهند. ChatGPT همچنین میتواند هر آنچه را که تا به حال به آن گفتهاید به خاطر بسپارد.
OpenAI، توسعهدهندهی چتجیپیتی میگوید هیچ تدابیر امنیتیای برای اطمینان از اینکه هوش مصنوعی در طول مکالمات نشان دهد که انسان نیست، وجود ندارد. OpenAI همچنین قصد ندارد یک «واترمارک» برای شناسایی محتوای تولیدشدهی توسط هوش مصنوعی اضافه کند. توسعهدهندگان توضیح دادند که این تصمیم بدین دلیل است که نشاندادن هوش مصنوعی بودن چتجیپیتی ممکن است بهطور غیرمنصفانه بر کاربران خاصی تأثیر بگذارد؛ مانند افرادی که دارای اختلالات گفتاری هستند و از چتجیپیتی برای برقراری ارتباط استفاده میکنند یا دانشآموزانی که برای دریافت کمک در نوشتن تکالیفشان از این چتبات استفاده میکنند. بااینحال، OpenAI میگوید فعالانه تلاش میکند تا شبیهسازی صدا را با رونمایی از ویژگیهای پیشرفته چتجیپیتی مسدود کند.
جکی شانون، سرپرست چندوجهی محصول ChatGPT، به بیبیسی گفت: «ما تلاش میکنیم تا صدای مصنوعیمان را از کپیکردن صدای افراد واقعی منع کنیم. به ویژه برای ادونسد ویس، ما فقط به مدل اجازه میدهیم از صداهای ازپیشتعیینشده استفاده کند.» صداهای چتجیپیتی شامل دو صدای انگلیسی و هفت صدای آمریکایی و دو جنسیت است.
چند ترفند دیگر وجود دارد که اگر شک دارید که صدایی که در حال مکالمه با آن هستید ممکن است صدای انسان نباشد، میتوانید آنها را امتحان کنید. برای مثال میتوانید از آن بخواهید که فریاد بزند. نیکولتی گفت بسیاری از سیستمهای صوتی هوش مصنوعی برای صحبتکردن خارج از محدودهی صوتیِ معمولی مشکل دارند، مگر اینکه بهطور خاص آموزش دیده باشند. او گفت از چتجیپیتی خواسته که فریاد بزند و جواب گرفته که نمیتواند این کار را انجام دهد.
هوش مصنوعی هنوز نمیتواند فریاد بزند
گرنان میگوید ایرادات موجود در گفتار انسان میتواند یکیدیگر از نقاط ضعف هوش مصنوعی برای تقلید باشد. اصلاح خود و تجدیدنظرکردن یا تغییردادن گفتار یا افکار، کاری بسیار انسانی است. بعید به نظر میرسد که چتجیپیتی بگوید: «اوه اصلا مهم نیست!» یا «فراموشش کن.»
همچنین اقداماتی وجود دارد تا نرمافزار تشخیص دیپفیک راحتتر در دسترس مصرفکنندگان قرار گیرد. برای مثال، مکآفی با شرکتهای دل، اچپی، لنوو، سامسونگ، ایسر و ایسوس همکاری کرده است تا راهحل تشخیصیشان روی کامپیوترهای شخصی مجهز به هوشمصنوعی، ازقبلنصبشده باشد. به گفتهی گروبمن، این شرکت در آیندهی نزدیک نرمافزار تشخیصی را برای دستگاههای موبایل نیز عرضه میکنند.
الونلبز، سازندهی ابزاری که برای ساخت کلیپ تقلید صوتی هوش مصنوعی در چالش «آلیس در سرزمین عجایب» استفاده شد همچنین ابزار تشخیص هوش مصنوعی رایگانی ارائه داده است تا به مردم کمک کند تشخیص دهند که آیا از نرمافزارش برای ایجاد قطعه صدایی استفاده شده است یا خیر.
اما در نبرد مداوم بین ساخت محتوای هوش مصنوعی و تمایز از آن محتوای انسانی، ممکن است چیزی را که در زندگی دیجیتالی خود از دست دادهایم دوباره کشف کنیم و آن تعامل فیزیکی است. شاید پاسخ برای فهمیدن اینکه آیا با یک انسان صحبت میکنید ساده باشد: زمان بیشتری را صرف ملاقات حضوری کنید.
جواب برای آن دسته از خوانندگانی که تا آخر مقاله به خواندن ادامه دادند و هنوز در مورد اینکه کدام یک از کلیپهای صوتی واقعی بود شک دارند، این است که اولین کلیپ، هوش مصنوعی بود؛ در حالی که کلیپ دوم صدای انسان بود. آیا توانستید درست حدس بزنید؟