مهندسان سیگنالهای مغز را بهصورت مستقیم به گفتار تبدیل کردند
در نخستین گام از تلاش علمی تازهای، مهندسان مغز و اعصاب سیستمی ساختهاند که میتواند فکر را به گفتار ترجمه کند. این پیشرفت غیرمنتظره که بین قدرت بیان و صوت ترکیبی و هوش مصنوعی پیوند زده است، میتواند در آیندهی نزدیک دنیایی را که در آن رایانهها بهطور مستقیم با مغز ارتباط برقرار میکنند، محقق سازد. درحالیکه هماکنون نیز امیدواری بزرگی به کسانی هدیه میکند که در صحبت کردن ناتوان هستند.
این فناوری که توسط مهندسان مغز و اعصاب دانشگاه کلمبیا در حال پیشرفت و ارتقا است، با نظارت بر فعالیتهای مغز توانسته کلماتی را که افراد میشنوند، با وضوح بیسابقهای نوسازی کند. این موفقیت درخشان که قدرت سخنوری و هوش مصنوعی را با هم ادغام کرده در دنیای مهندسی پزشکی (Biomedical engineering) همچون پرش از مانعی بلند در راه خلق رایانههایی شگفتآور محسوب میشود که در عرصهی ارتباط با کاربران انقلابی را ایجاد خواهند کرد.
از دیگر زمینههای قابلتوجه برای این فناوری کمک به افرادی است که نمیتوانند صحبت کنند. افرادی که دچار مشکلاتی از قبیل اسکلروز جانبی آمیوتروفیک (Amyotrophic lateral sclerosis) همانند استیون هاوکینگ فقید هستند یا افرادی که از سکته مغزی نجات یافتهاند، میتوانند به با این فناوری به روزهای خوش برقراری ارتباط با جهان خارج امیدوار باشند؛ فناوری شگفتانگیزی که به مدیریت دکتر نیما مسگرانی در حال شکوفایی هرچه بیشتر است.
دکتر نیما مسگرانی، نویسنده و عضو اصلی پژوهش در مؤسسه رفتار ذهنی مغز مورتیمر بی زاکرمن از دانشگاه کلمبیا است. دکتر مسگرانی معتقد است با نتایج مطالعات پژوهش، میتوانیم راهی برای بازگشت قدرت سخنوری داشته باشیم. نتایج پژوهشهای او نشان داد که با فناوری مناسب، میتوان اندیشهی افراد را رمزگشایی و ازطریق گوش دادن قابل فهم کرد.
نتایج دهها پژوهش به پژوهشگران نشان داده بود که وقتی افراد صحبت میکنند یا حتی تصور میکنند که صحبت میکنند، الگوهای گفتوگو در مغز آنها ظاهر میشود. الگوهایی متفاوت ولی قابل تشخیص از سیگنالها نیز هنگامی که ما به سخنان دیگران گوش میدهیم یا تصور میکنیم که گوش میدهیم، در مغز پدیدار میشود. کارشناسان سعی میکنند این الگوهای مغزی را ثبت و حتی رمزگشایی کنند. آنها آیندهای را تصور میکنند که در آن اندیشهها درون مغز پنهان نیست و بدون نیاز به ترجمه به دیگران منتقل شود.
از سویی انجام این شاهکار چالشبرانگیز است. اولین تلاشها برای رمزگشایی سیگنالها توسط دکتر مسگرانی انجام شد درحالیکه دیگر همکاران تیم او روی مسئلهی تجزیه و تحلیل اسپکتروگرامها و تبدیل به مدلهای رایانهای ساده تمرکز داشتند. اسپکتروگرام پارامترهای اصوات همچون چگالی طیفی و فرکانس را بهصورت بصری نمایش میدهند که از نمونههای معروف آن سونوگرافی است. نتیجه این رویکرد برای تولید خروجی که به صحبت قابل فهم تبدیل شود، ناموفق بود؛ ازاینرو دکتر مسگرانی که دانشیار رشته مهندسی الکترونیک در بنیاد آموزشی فو کلمیبا و علوم کاربردی است، بههمراه تیمش به روی فناوری وکودر تمرکز کرد. دکتر مسگرانی بهدنبال یک الگوریتم رایانهای بود که بتواند پس از آموزش دیدن با سوابق گفتگوهای افراد، متن را به گفتار تبدیل کند. دکتر مسگرانی در اینباره میگوید:
این همان فناوریای است که آمازون اکو و اپل سیری برای پاسخ به درخواستهای کلامی ما استفاده میکنند.
دکتر مسگرانی تصمیم گرفت در جهت تعلیم وکودر برای آنکه بتواند فعالیتهای مغزی را تفسیر کند با دکتر اشیش دینیش مِهتا همکاری کند. دکتر مهتا جراح مغز و اعصاب در مؤسسه عصبشناسی پزشکان همکار Northwell Health است که در یک شبکه مراقبتهای بهداشتی با مشارکت در حدود ۲۰ بیمارستان فعال است. درعینحال دکتر مهتا در today's paper نیز بهعنوان همکار نویسنده فعالیت دارد. تمرکز اصلی دکتر مهتا به روی درمان بیماران صرعی است که باید تحت عمل جراحی منظم قرار بگیرند.
دکتر مسگرانی معتقد است که همکاری با دکتر مهتا و یاری جستن از بیماران صرع در حین عمل و رصد الگوهای مغزی آنها در هنگام گوشدادن به صدای افراد مختلف اطلاعات خوبی برای تحلیل الگوها به تیم پژوهش داده و نتایج همین الگوها بود که وکودر را برای انجام وظیفهاش آموزش میدادند. در ادامهی طرح، پژوهشگران از همان بیماران خواستند به صدای دیجیتالی ارقام از ۰ تا ۹ گوش دهند. صداهای تولیدشده بهوسیله وکودر در پاسخ به این سیگنالها توسط شبکه عصبی که یک نوع هوش مصنوعی با توانایی تقلید ساختار نورونهای مغز بیولوژیک بود، آنالیز و پالوده شد.
نتیجه این تلاشها برای تیم پژوهش دکتر مسگرانی موفقیت درخشانی بود. آنها متوجه شدند که افراد میتواند در ۷۵ درصد اوقات این صداهای تولیدشده را بفهمند و تکرار کنند و این نتیجه برتر از هر تلاشی بود که قبل انجام شده بود. بهبود و قابلیت فهم در ضبطهای جدید برپایه اسپکتروگرامهای قبلی بهطور مشهودی واضح بود. درعین حال که قدرت و دقت وکودر و شبکه عصبی، ناشی از دقت شگفتآور بیماران در شنیدن صداهای اولیه بود. دکتر مسگرانی و تیم پژوهشهای او در ادامه تلاشهای خود قصد دارند با آزمایش کلمهها و جملات بغرنج کار را ادامه دهند. در برنامه بعدی آنها همان آزمایشها را روی سیگنالهای مغز فرد منتشر میکنند درحالیکه او صحبت میکند یا تصور میکند درحال صحبت کردن است. درنهایت آنها امیدوارند که این فناوری همچون به بخشی از یک ایمپلنت مشابه یکی از انواعی که بیماران صرع استفاده میکنند، تبدیل شود تا افکار را مستقیما به گفتار تبدیل کند.
در این محصول اگر صاحب ایمپلنت در این اندیشه باشد که به یک لیوان آب نیاز دارد، سیستم با تحلیل سینگالهای مغز میتواند این فکر را درک کند و آن را به دیالوگ تبدیل کند. دکتر مسگرانی معتقد است که این فناوری میتواند تحول شگرفی ایجاد کند. این سیستم به هر شخصی که دچار آسیب یا صدمه در توان گفتاری است میتواند توانایی سخن گفتن را ببخشد تا برای ارتباط با دنیای اطراف فرصتی دوباره داشته باشد.