صدای انسان یا هوش مصنوعی؟ چالش تمایز در عصر فناوری پیشرفته

جمعه ۱۶ آذر ۱۴۰۳ - ۱۳:۳۰مطالعه 8 دقیقه

هوش مصنوعی اکنون می‌تواند مکالمات واقع‌گرایانه و حتی شبیه‌سازی صدای دیگران را به خوبی انجام دهد. اما چگونه باید صدای آن را از صدای انسان تشخیص داد؟

تبلیغات

خلاصه مقاله:

با پیشرفت تکنولوژی، صداهای ساخته‌شده توسط هوش مصنوعی بهتر و طبیعی‌تر می‌شوند و نگرانی‌هایی را در مورد استفاده از آن‌ها برای انتشار اطلاعات نادرست، ارتکاب کلاهبرداری یا آسیب رساندن به شهرت افراد ایجاد می‌کنند.
افراد مشهور و افراد عادی به طور یکسان با خطر روبرو هستند. به عنوان مثال، از صدای چهره‌های عمومی برای سرگرمی یا اطلاعات نادرست سوء‌استفاده می‌شود، در حالی که افراد غیر‌سلبریتی، موارد آزار و اذیت و کلاهبرداری را تجربه می‌کنند.
فناوری‌هایی مانند واترمارک دیجیتال محتوای تولید‌شده توسط هوش مصنوعی یا ابزار تشخیص محتوای AI برای مبارزه با سوء استفاده پیشنهاد شده، اما اجرای آن ها هنوز در مراحل اولیه است.
راهایی برای تشخیص صدای هوش مصنوعی از صدای انسان وجود دارد. الگوهای تنفسی، تاکید، لحن و جمله‌بندی می‌تواند سرنخی برای شناسایی باشد، اگرچه هوش مصنوعی در حال یادگرفتن برای افزایش شباهت صدای خود به انسان است.
هوش مصنوعی اکنون در تقلید خصلت‌های گفتاری طبیعی بسیار ماهر است و تقلید‌های صوتی تولید‌شده توسط هوش مصنوعی می‌توانند حتی سیستم‌های اعتبارسنجی صوتی را فریب دهند.
شرکت‌ها در حال ساخت ابزارهای تشخیص هوش مصنوعی هستند که برخی از آن‌ها از قبل روی کامپیوترهای شخصی و دستگاه‌های تلفن همراه نصب می‌شوند.
تعاملات چهره‌به‌چهره ممکن است در تأیید صحت پیام‌های دریافتی در دنیای دیجیتال دوباره اهمیت پیدا کند؛ زیرا تشخیص دیپ‌فیک‌های هوش مصنوعی دشوارتر می‌شود.

این روزها گفتگو با هوش مصنوعی بسیار آسان است. می‌توانید از چت‌بات‌ها سوال بپرسید و آن‌ها حتی به صورت شفاهی پاسخ جذابی را ارائه خواهند داد. حتی می‌توانید با چت‌بات‌های هوش مصنوعی با چندین زبان مختلف صحبت کنید و با گویش یا لهجه‌ی خاصی درخواست پاسخ دهید.

اکنون حتی امکان استفاده از ابزارهای شبیه‌سازی گفتار مبتنی بر هوش مصنوعی برای تقلید صدای انسان‌های واقعی وجود دارد. استفاده از صداهای تقلیدشده‌ی افراد معروف برای ساخت محتوا برای همه خوشایند نیست. در برخی موارد از این فناوری برای کلاهبرداری و فریب افراد برای دزدی استفاده می‌شود.

تمامی صداهای تولید‌شده توسط هوش مصنوعی برای مقاصد بد استفاده نمی‌شوند. چت‌بات‌های ساخته‌شده از مدل‌های زبانی بزرگ، پیشرفت‌ می‌کنند تا بتوانند به روشی بسیار طبیعی‌تر و قانع‌کننده‌تر صحبت کنند. برای مثال، عملکرد صوتی ChatGPT اکنون می‌تواند با استفاده از تغییرات لحن و تأکید بر کلمات خاص به روش‌های بسیار مشابهی که یک انسان برای انتقال همدلی و احساس نیاز دارد پاسخ دهد. همچنین می‌تواند نشانه‌های غیرکلامی مانند آه کشیدن و هق‌هق کردن را متوجه شود، به ۵۰ زبان صحبت کند و می‌تواند به صورت دینامیک لهجه‌اش را بلا‌درنگ در طول مکالمه تغییر دهد و حتی قادر است از طرف کاربران تماس تلفنی برقرار کند.

کوثر نیکومنش

چطور اکانت ChatGPT بسازیم و به مدل جدید o3-mini دسترسی پیدا کنیم؟

مطالعه '9

تمام قابلیت‌ها‌ی واقع‌گرایانه‌ی صدای هوش مصنوعی سوالی جالب را مطرح می‌کند: آیا ویژگی منحصر‌به‌فردی در صدای انسان وجود دارد که به ما کمک کند آن را از گفتار رباتی تشخیص دهیم؟

جاناتان هرینگتون، استاد آوایی و پردازش گفتار دیجیتال در دانشگاه مونیخ آلمان، تحت تأثیر پیشرفت‌ها در ساخت صدای مبتنی بر هوش مصنوعی قرار گرفته است. او خاطرنشان می‌کند که تشخیص صداهای تولید‌شده توسط هوش مصنوعی و صداهای واقعی، چالش‌برانگیز شده؛ با‌این‌حال، او معتقد است هنوز نشانه‌هایی برای شناسایی صداهای هوش مصنوعی وجود دارد.

کانر گرنان، معمار ارشد هوش مصنوعی از مدرسه کسب‌وکار استرن دانشگاه نیویورک، برای آزمایش تشخیص صدای انسان از هوش مصنوعی در پروژه‌ای با همکاری بی‌بی‌سی یک جفت کلیپ صوتی ساخت که متنی از داستان «آلیس در سرزمین عجایب»، اثر لويئس کارول بود. یکی از کلیپ‌ها توسط گرنان خوانده شده و دیگری توسط ابزار هوش مصنوعی ElevenLabs تولید شده است. چالش این بود که آیا شنوندگان می‌توانند تفاوت بین صدای انسان و صدای تولید‌شده توسط هوش مصنوعی را تشخیص دهند یا خیر.

پخش از رسانه

می‌توانید بگوید کدام صدا متعلق به انسان است؟

در یک آزمایش غیررسمی، حدود نیمی از شرکت‌کنندگان نمی‌توانستند صداهای تولید‌شده توسط انسان و هوش مصنوعی را تشخیص دهند. تشخیص، تنها با گوش‌دادن دشوار بود. نشانه‌های ظریف مانند صدای نفس‌گرفتن سریع، صدای انسان را نشان می‌دهد؛ در حالی که وزن، آهنگ و تونالیته به صدای هوش‌مصنوعی اشاره می‌کنند. برای کسی که برای تشخیص این تفاوت‌ها آموزش ندیده، تشخیص گفتار انسان و هوش مصنوعی دشوار است؛ زیرا این نشانه‌ها اغلب ظریف هستند.

انسان‌ها به‌طور کلی در تشخیص دیپ‌فیک عملکردی ضعیف دارند؛ اما نرم‌افزارهای تخصصی می‌توانند دراین زمینه کمک‌کننده باشند. نمونه‌هایی از ترکیب صداهای واقعی و جعلی ممکن است در کلاهبرداری استفاده شوند؛ مانند ویدیویی از بیل گیتس که محصولی جعلی را تبلیغ می‌کند. بهترین کار این است که مراقب محتوای مشکوک باشید و احتیاط را در نظر بگیرید.

بیشتر بخوانید

همه‌چیز درباره دیپ فیک؛ وقتی تکنولوژی مرز واقعیت و دروغ را از بین می‌برد
06 11 01
مطالعه '17

پیت نیکولتی، مدیر ارشد امنیت اطلاعات جهانی «چک پوینت»، شرکت محصولات امنیت رایانه‌ای، در چالش «آلیس در سرزمین عجایب» بی‌بی‌سی دچار مشکل شد. او گفت:

ما در جامعه‌ای زندگی می‌کنیم که کلون‌های صوتی تولید‌شده توسط هوش مصنوعی می‌توانند حتی سیستم‌های اعتبارسنجی صدای شرکت‌های کارت اعتباری را فریب دهند
- پیت نیکولتی

نیکولتی می‌گوید معمولاً هنگام پخش صدا به الگوهای گفتاری غیرطبیعی مانند مکث‌های نامنظم و جمله‌بندی‌های نامناسب گوش می‌دهد. تحریف‌ها و نویزهای پس‌زمینه نامناسب شناسایی را آسان‌تر می‌کند. او همچنین به تغییرات محدود در حجم، آهنگ و لحن گوش می‌دهد، زیرا صداهایی رباتی که تنها از چند ثانیه صحبت یک انسان شبیه‌سازی می‌شوند، ممکن است دامنه‌ی کامل صدای انسان را نداشته باشند. نیکولتی تأکید می‌کند که شبیه‌سازی‌های صوتی هوش مصنوعی حتی می‌توانند سیستم‌های اعتبارسنجی صدای شرکت‌های کارت اعتباری را فریب دهند.

کارشناسان، گفتار تولید‌شده توسط هوش مصنوعی را توسط تغییر تن صدا و تنفس، تاکید و لحن در گفتار تشخیص می‌دهند؛ زیرا انسان‌ها از این صداها برای افزودن معنا و زمینه به جملات استفاده می‌کنند.

هرینگتون می‌گوید گوش‌دادن به پستی‌وبلندی صدا یا تاکید کلماتی که در جمله استفاده می‌شوند، می‌تواند ترفند خوبی برای تشخیص گفتار تولید‌شده توسط کامپیوتر باشد، زیرا انسان‌ها از تأکید برای معنی‌دادن بیشتر به یک جمله در متن سخن استفاده می‌کنند.

لحن یا تغییر زیر‌و‌بم صدا در یک جمله، می‌تواند کلمات را طوری بیان کند که جمله‌ی خبری به پرسش تغییر کند. جمله‌بندی نیز عامل مهمی است. نحوه‌ی شکستن یک جمله نیز می‌تواند معنای آن را تغییر دهد.

تاکید، لحن و جمله‌بندی، نوای گفتار در سطح جمله هستند

تاکید، لحن و جمله‌بندی، این سه عنصر گفتار با هم، به عنوان نوای گفتار در سطح جمله شناخته می‌شوند. هرینگتون می‌گوید: «این یکی از راه‌هایی است که گفتار تولید‌شده توسط کامپیوتر بسیار ضعیف بوده و شبیه انسان نیست.» اما با پیشرفت فناوری، هوش مصنوعی در تکرار این جنبه‌های گفتار نیز مهارت بیشتری پیدا می‌کند.

کارشناسان امنیت سایبری و فناوری به‌ویژه نگران شبیه‌سازی صدا هستند که تهدیدی واقعی برای مشاغل است. به عنوان مثال، آساف راپوپورت، مدیر عامل Wiz، حادثه‌ای را تعریف می‌کند که در آن کلاهبرداران یک شبیه‌ساز صوتی از او ایجاد کردند تا پیام صوتی جعلی برای کارمندان بفرستند و بتوانند اعتبارنامه‌ها را سرقت کنند. اگرچه تلاش کلاهبرداران ناموفق بود، به عنوان زنگ هشدار عمل کرد.

در موردی دیگر، مدیر مدرسه‌ای پس از اینکه کلیپ صوتی جعلی نشان می‌داد اظهاراتی عمیقا توهین‌آمیز بیان می‌کند، تهدید به مرگ شد. در مورد دیگری، کلاهبرداران از اعضای خانواده‌ای از طریق تماس‌های تلفنی با استفاده از شبیه‌سازی صوتی عزیزانشان پول دزدیدند.

کارشناسان توصیه می‌کنند که برای احراز هویت از روش‌های جایگزین استفاده کنید. مثلاً در خانه، از گذرواژه‌های خانوادگی استفاده کنید و در محل کار قبل از هر اقدامی پیام‌های صوتی را تأیید کنید. همچنین می‌توانید سوالات شخصی مانند آهنگ مورد علاقه‌ی فرد را بپرسید. اما بهترین کار این است که اگر به پیام مشکوکی برخوردید، بگویید با او (فرستنده‌ی پیام) تماس می‌گیرید و سپس با شماره‌ای که از قبل دارید، تماس بگیرید.

بسیاری از سیستم‌های صوتی هوش مصنوعی با صحبت‌کردن در طیف وسیعی از صداها و زیر‌و‌بم مشکل دارند

تشخیص‌دادن صدای هوش مصنوعی و صدای انسان در دو کلیپ‌ صوتی «آلیس در سرزمین عجایب» برای هرینگتون و همکارانش در موسسه آواشناسی دانشگاه مونیخ سخت بود. آن‌ها خاطرنشان کردند که تغییرات در سرعت گفتار و میزان تنفس، که معمولاً ویژگی‌های انسانی هستند، گاهی‌اوقات در صداهای هوش مصنوعی مشهودتر است.

به‌داخل‌کشیدن هوا هنگام صحبت نیز یکی‌دیگر از نشانه‌های مشخص برای تشخیص گفتار است. در دو کلیپ صوتی نکته‌ی عجیبی راجع‌به نحوه‌ی نفس‌گیری بین صحبت‌ها وجود داشت. هرینگتون و همکارانش همچنین گفتند متوجه شده‌اند که تنفس در یکی از کلیپ‌های «آلیس در سرزمین عجایب» تقریباً بیش‌از‌حد دقیق و منظم است که بتواند متعلق به انسان باشد؛ اما معلوم شد که اشتباه کرده‌اند و نمونه‌ی موردنظرشان صدای انسان است.

به‌تکاپو‌افتادن متخصصان برای تمایز هوش مصنوعی از صدای انسان، قابلیت‌های پیشرفته هوش مصنوعی در تقلید گفتار انسان را برجسته می‌کند. هرینگتون نسبت به توانایی هوش مصنوعی در اعمال صحیح نوای گفتار ابراز نگرانی کرد. هرینگتون می‌گوید با‌این‌حال راه دیگری برای تشخیص صدای انسان از صدای هوش مصنوعی وجود دارد. او پیشنهاد می‌کند از چیزی به نام کاهش تکیه‌گذاری آوایی (Prosodic Deaccenting) استفاده کنید. مثال زیر را در نظر بگیرید:

سوال: آیا جان هنوز «دوران مشقت» را نخوانده است؟

پاسخ: جان از دیکنز خوشش نمی‌آید.

نکته‌ی کلیدی، تاکید بر کلمه‌ی خوشش نمی‌آید است. این تأکید فقط در مورد احساسات جان نسبت به کتاب «دوران مشقت» نیست، بلکه بیشتر نسبت به چارلز دیکنز، نویسنده‌ی کتاب است. هرینگتون می‌گوید: «ترکیب این نوع گفت‌وگوها با آوای طبیعی ممکن است هنوز برای بسیاری از سیستم‌های هوش مصنوعی سخت باشد، زیرا به دانشی از جهان نیاز دارد که فراتر از کلمات چاپ‌شده در صفحه است.» مدل‌های زبانی بزرگ حتی ممکن است استفاده از جنبه‌های آوایی صحیح را نیز به زودی توسط مجموعه داده‌های بزرگی از اینترنت یاد بگیرند، زیرا خود را برای صحبت انسانی‌تر آموزش می‌دهد.

بیشتر بخوانید

ChatGPT اکنون می‌تواند ببیند و بشنود و حرف بزند!
03 07 02
مطالعه '1
چت‌بات ChatGPT حالا می‌تواند پاسخ‌ها را با صدای بلند بخواند
15 12 02
مطالعه '1

سرویس‌های اصلی گفتار آوایی هوش مصنوعی مانند عملکرد صوتی چت‌جی‌پی‌تی در‌حال‌حاضر نیز توانایی دارند بخندند، زمزمه کنند، حرفشان توسط شما قطع شود و سپس به آنچه می‌گفتند ادامه دهند. ChatGPT همچنین می‌تواند هر آنچه را که تا به حال به آن گفته‌اید به خاطر بسپارد.

OpenAI، توسعه‌دهنده‌ی چت‌جی‌پی‌تی می‌گوید هیچ تدابیر امنیتی‌ای برای اطمینان از اینکه هوش مصنوعی در طول مکالمات نشان دهد که انسان نیست، وجود ندارد. OpenAI همچنین قصد ندارد یک «واترمارک» برای شناسایی محتوای تولید‌شده‌ی توسط هوش مصنوعی اضافه کند. توسعه‌دهندگان توضیح دادند که این تصمیم بدین دلیل است که نشان‌دادن هوش مصنوعی بودن چت‌جی‌پی‌تی ممکن است به‌طور غیرمنصفانه بر کاربران خاصی تأثیر بگذارد؛ مانند افرادی که دارای اختلالات گفتاری هستند و از چت‌جی‌پی‌تی برای برقراری ارتباط استفاده می‌کنند یا دانش‌آموزانی که برای دریافت کمک در نوشتن تکالیفشان از این چت‌بات استفاده می‌کنند. با‌این‌حال، OpenAI می‌گوید فعالانه تلاش می‌کند تا شبیه‌سازی صدا را با رونمایی از ویژگی‌های پیشرفته چت‌جی‌پی‌تی مسدود کند.

جکی شانون، سرپرست چندوجهی محصول ChatGPT، به بی‌بی‌سی گفت: «ما تلاش می‌کنیم تا صدای مصنوعی‌مان را از کپی‌کردن صدای افراد واقعی منع کنیم. به ویژه برای ادونسد ویس، ما فقط به مدل اجازه می‌دهیم از صداهای از‌پیش‌تعیین‌شده استفاده کند.» صداهای چت‌جی‌پی‌تی شامل دو صدای انگلیسی و هفت صدای آمریکایی و دو جنسیت است.

چند ترفند دیگر وجود دارد که اگر شک دارید که صدایی که در حال مکالمه با آن هستید ممکن است صدای انسان نباشد، می‌توانید آن‌ها را امتحان کنید. برای مثال می‌توانید از آن بخواهید که فریاد بزند. نیکولتی گفت بسیاری از سیستم‌های صوتی هوش مصنوعی برای صحبت‌کردن خارج از محدوده‌ی صوتیِ معمولی مشکل دارند، مگر اینکه به‌طور خاص آموزش دیده باشند. او گفت از چت‌جی‌پی‌تی خواسته که فریاد بزند و جواب گرفته که نمی‌تواند این کار را انجام دهد.

هوش مصنوعی هنوز نمی‌تواند فریاد بزند

گرنان می‌گوید ایرادات موجود در گفتار انسان می‌تواند یکی‌دیگر از نقاط ضعف هوش مصنوعی برای تقلید باشد. اصلاح خود و تجدید‌نظر‌کردن یا تغییر‌دادن گفتار یا افکار، کاری بسیار انسانی است. بعید به نظر می‌رسد که چت‌جی‌پی‌تی بگوید: «اوه اصلا مهم نیست!» یا «فراموشش کن.»

همچنین اقداماتی وجود دارد تا نرم‌افزار تشخیص دیپ‌فیک راحت‌تر در دسترس مصرف‌کنندگان قرار گیرد. برای مثال، مک‌آفی با شرکت‌های دل، اچ‌پی، لنوو، سامسونگ، ایسر و ایسوس همکاری کرده است تا راه‌حل تشخیصی‌شان روی کامپیوترهای شخصی مجهز به هوش‌مصنوعی، از‌قبل‌نصب‌شده باشد. به گفته‌ی گروبمن، این شرکت در آینده‌ی نزدیک نرم‌افزار تشخیصی را برای دستگاه‌های موبایل نیز عرضه می‌کنند.

الون‌لبز، سازنده‌ی ابزاری که برای ساخت کلیپ تقلید صوتی هوش مصنوعی در چالش «آلیس در سرزمین عجایب» استفاده شد همچنین ابزار تشخیص هوش مصنوعی رایگانی ارائه داده است تا به مردم کمک کند تشخیص دهند که آیا از نرم‌افزارش برای ایجاد قطعه صدایی استفاده شده است یا خیر.

اما در نبرد مداوم بین ساخت محتوای هوش مصنوعی و تمایز از آن محتوای انسانی، ممکن است چیزی را که در زندگی دیجیتالی خود از دست داده‌ایم دوباره کشف کنیم و آن تعامل فیزیکی است. شاید پاسخ برای فهمیدن اینکه آیا با یک انسان صحبت می‌کنید ساده باشد: زمان بیشتری را صرف ملاقات حضوری کنید.

جواب برای آن دسته از خوانندگانی که تا آخر مقاله به خواندن ادامه دادند و هنوز در مورد اینکه کدام یک از کلیپ‌های صوتی واقعی بود شک دارند، این است که اولین کلیپ، هوش مصنوعی بود؛ در حالی که کلیپ دوم صدای انسان بود. آیا توانستید درست حدس بزنید؟

مقاله رو دوست داشتی؟

نظرت چیه؟