ایمپلنت مغزی جدید، افکار را در لحظه به گفتار تبدیل میکند
زنی در ایالات متحده تقریباً دو دهه پس از آنکه در ۳۰ سالگی دچار سکته در ساقهی مغز شد و توانایی گفتار خود را از دست داد، بهواسطهی فرایندی نوآورانه در واسط مغز و رایانه (BCI) توانسته بار دیگر افکارش را بهصورت آنی به کلمات تبدیل کند.
روش ابتکاری محققان آمریکایی با تحلیل فعالیت مغزی او در بازههای زمانی ۸۰ میلیثانیهای و تبدیل آن به نسخهای مصنوعی از صدای خودش، موفق شد تأخیر آزاردهندهای را که در نسخههای پیشین این فناوری وجود داشت، از میان بردارد.
روش جدید در BCI با سرعت بالاتری فرمانهای عصبی را به گفتار تبدیل میکند
توانایی بدن ما برای انتقال صداها به همان شکلی که به آنها فکر میکنیم، عملکردی است که اغلب بدیهی میدانیم. تنها در لحظاتی نادر مانند زمانی که نیاز به مترجم داریم یا صدای خود را با تأخیر از بلندگو میشنویم، به سرعت شگفتانگیز گفتار طبیعی خود پی میبریم.
برای افرادی که به دلیل بیماریهایی مانند اسکلروز جانبی آمیوتروفیک (ALS) یا ضایعات در بخشهای حیاتی دستگاه عصبی، ارتباط بین مغز و مرکز گفتارشان از بین رفته است، ایمپلنتهای مغزی همراه با نرمافزارهای ویژه، نویدبخش بازگشت دوباره به توانایی برقراری ارتباط بودهاند.
تعدادی از پروژههای ترجمهی گفتار BCI اخیراً پیشرفتهای چشمگیری داشتهاند که هدف هرکدام کاهش زمان صرف شده برای تبدیل گفتار از افکار است. بیشتر روشهای موجود نیاز دارند تا ابتدا یک بخش کامل از متن را دریافت کنند تا نرمافزار بتواند معنای آن را تحلیل کند؛ این امر به تأخیرهای قابلتوجهی میان آغاز فکر و تولید گفتار منجر میشود. تاخیر زیاد نه تنها غیرطبیعی است، بلکه میتواند برای کسانی که از چنین سیستمهایی استفاده میکنند خستهکننده و ناراحتکننده باشد.
- نورالینک؛ رؤیای ایلان ماسک برای ادغام انسان و هوش مصنوعی26 01 03مطالعه '17
محققان دانشگاه کالیفرنیا در برکلی و سانفرانسیسکو در گزارش خود مینویسند: «بهبود زمان تأخیر در ساخت گفتار و افزایش سرعت رمزگشایی برای داشتن مکالمهای پویا و ارتباطی روان، امری ضروری است.» تیم پژوهشی به رهبری کیلو لیتلجان، مهندس علوم رایانه از دانشگاه کالیفرنیا، برکلی، توضیح میدهد این مسئله زمانی پیچیدهتر میشود که در نظر بگیریم پخش صدای ساختهشده و درک آن از سوی کاربر و شنونده، به زمان بیشتری نیاز دارد.
بیشتر روشهای فعلی در حوزهی BCI مبتنی بر این هستند که کاربر بهطور آشکار باید حرکات گفتاری را شبیهسازی کند تا سیستم، آموزش ببیند، حتی اگر صدایی تولید نشود. این فرایند برای افرادی که مدتهاست از مهارت گفتاری بیبهره یا از ابتدا با مشکلات گفتاری مواجه بودهاند، چالشبرانگیز است؛ چرا که تأمین دادههای کافی برای آموزش نرمافزارِ رمزگشای افکار به گفتار در این شرایط، دشوار و گاه غیرممکن است.
محققان برای غلبه بر چالشها، نوعی شبکهی عصبی عمیق و انعطافپذیر را بر اساس فعالیت قشر حسیحرکتی مغز شرکتکننده ۴۷ ساله آموزش دادند. در این فرآیند، شرکتکننده بهطور بیصدا ۱۰۰ جملهی منحصربهفرد شامل هزار کلمه را در ذهن خود تولید کرد. هدف از این کار این بود که شبکهی عصبی بدون نیاز به تولید صدای واقعی یا تلاش فیزیکی برای بیان کلمات، قادر باشد فعالیتهای مغزی فرد را تحلیل و آنها را به گفتار قابلفهم تبدیل کند.
همچنین لیتلجان و همکارانش از نوعی روش ارتباطی کمکی نیز استفاده کردند که بر پایهی ۵۰ عبارت طراحی شده بود و کلمات کمتری داشت. برخلاف روشهای قبلی، این فرآیند شامل تلاش برای ادای کلمات بهصورت فیزیکی نبود و فقط برای بیانکردن بیصدا توسط شرکتکننده بود. سیستم توانست هر دو نوع روش ارتباطی ۱۰۰ جملهای و ۵۰ عبارت سادهتر را با موفقیت رمزگشایی کند و میانگین تعداد کلمات تبدیلشده در دقیقه نزدیک به دو برابر روشهای قبلی بود.
سرعت روش جدید بسیار بالاتر اما دقت پایینتری داشت
نکتهی مهمتر اینکه، استفاده از نوعی روش پیشبینیکننده که توانایی تفسیر مداوم در لحظه را دارد، سبب شد که گفتار شرکتکننده با سرعتی ۸ برابر سریعتر از دیگر روشها، روانتر و طبیعیتر باشد. حتی صدای تولیدشده نیز شبیه به صدای واقعی خود فرد بود، زیرا از برنامهی سنتز صدایی استفاده شده بود که بر اساس ضبطهای قبلی صدای او ساخته شده بود.
تیم تحقیقاتی فرآیند خود را بهطور آفلاین و بدون محدودیت زمانی اجرا کرد و نشان داد که استراتژی آنها قادر است سیگنالهای عصبی مربوط به کلماتی را که بهطور خاص و عمدی برای آنها آموزش ندیده بودند، تفسیر کند. به عبارت دیگر، سیستم توانسته بهطور خودکار و بدون نیاز به آموزش قبلی، سیگنالهای عصبی کلمات جدید را تحلیل و تفسیر کند. این نشاندهندهی قدرت انعطافپذیری و دقت بالای سیستم است.
نویسندگان مطالعه خاطرنشان میکنند که هنوز راه زیادی برای رسیدن به کاربرد بالینی روش جدیدشان در پیش است. اگرچه گفتار تولیدشده قابل درک بود، از نظر دقت همچنان با روشهای دیگر BCI که متن را رمزگشایی میکنند، فاصله دارد.
با در نظر گرفتن پیشرفتهای چشمگیر فناوری در تنها چند سال اخیر، میتوان به آیندهای امیدوار بود که در آن، افرادی که از نعمت گفتار محروم بودهاند، بار دیگر توانایی بیان افکار خود را نه از طریق صدا، بلکه از طریق علم بازیابند.
تحقیق در Nature Neuroscience منتشر شده است.