Как ИИ учится преобразовывать сигналы мозга в речь

Как ИИ учится преобразовывать сигналы мозга в речь
Как ИИ учится преобразовывать сигналы мозга в речь

Первые шаги к разработке инструментов, которые могли бы помочь людям с ограниченными возможностями восстановить способность говорить.

Image
Image

Ключевые выводы

  • Техника включает в себя обучение нейронных сетей ассоциировать паттерны активности мозга с человеческой речью.
  • Некоторым исследовательским группам удалось заставить нейронные сети «говорить» понятными словами.
  • Хотя подобная технология может когда-нибудь помочь инвалидам восстановить способность говорить, до расшифровки воображаемой речи еще далеко.

Несколько исследовательских групп недавно добились значительного прогресса в использовании нейронных сетей для преобразования мозговой активности в понятную компьютерную речь, что может стать одним из первых шагов на пути к радикальному улучшению качества жизни людей, которые потерял способность говорить.

Как отмечается в недавней статье журнала Science, группы, опубликовавшие несколько отдельных статей на сервере препринтов bioRxiv, пока не в состоянии преобразовывать слова и предложения, выдуманные людьми, в сгенерированную компьютером речь. Тем не менее, командам удалось заставить нейронные сети реконструировать слова, которые разные участники либо слышали, либо произносили вслух, либо про себя.

Для этого команды записали сигналы мозга и передали их в нейронную сеть, которая затем сопоставила сигналы с соответствующими звуками или движениями рта.

К сожалению, такая работа требует вскрытия черепа; исследователям нужны чрезвычайно точные данные, которые можно получить только путем хирургической имплантации электродов непосредственно в области мозга, связанные с речью, слухом или двигательными функциями. Все усложняет тот факт, что каждый человек проявляет уникальную нейронную активность в этих областях, поэтому то, что ИИ узнает от одного человека, не передается другому.

«Мы пытаемся выяснить схему… нейронов, которые включаются и выключаются в разные моменты времени, и делают вывод о звуке речи», - рассказала журналу Science Нима Месгарани, специалист по информатике из Колумбийского университета. «Отображение одного на другое не очень просто».

Для исследования команды полагались на участников, которым уже была назначена инвазивная операция по удалению опухолей головного мозга или предоперационное лечение эпилепсии.

Одна команда под руководством Месгарани загрузила в нейронную сеть данные из слуховой коры участников, которые были получены, когда они слушали записи людей, рассказывающих истории и перечисляющих числа. Используя только данные мозга, нейронная сеть смогла «проговорить» числа группе слушателей, которые смогли правильно идентифицировать цифры примерно в 75% случаев.

Другая команда, возглавляемая нейрохирургом Эдвардом Чангом и его командой из Калифорнийского университета в Сан-Франциско, записывала мозговую активность пациентов с эпилепсией, когда они читали предложения вслух, и передала данные в нейронную сеть. Затем отдельная группа людей слушала попытки нейронной сети реконструировать предложения, а затем выбирала из письменного списка предложения, которые, по их мнению, она пыталась воспроизвести. В некоторых случаях они делали правильный выбор в 80% случаев.

Команде Чанга также удалось заставить нейронную сеть воспроизводить слова, которые участники только произносили про себя, достижение, которое знаменует собой «на один шаг ближе к речевому протезу, который мы все имеем в виду», как сказал нейробиолог Кристиан. Херфф из Маастрихтского университета в Нидерландах рассказал журналу Science.

Image
Image

Кадр из фильма «Скафандр и бабочка» (2007).

Расшифровка воображаемой речи

Техники, описанные выше, работают, потому что нейронные сети смогли найти закономерности между двумя относительно определенными наборами данных: активность мозга и внешние речевые функции (такие как произносимые слова или движения рта). Но эти внешние функции отсутствуют, когда кто-то просто представляет себе речь, и без этих данных, которые можно использовать для обучения, неясно, смогут ли когда-нибудь нейронные сети преобразовывать мозговую активность в сгенерированную компьютером речь.

Один из подходов, как рассказал Херфф корреспонденту журнала Science Келли Сервик, включает предоставление «обратной связи пользователю интерфейса мозг-компьютер: если он может слышать интерпретацию речи компьютера в режиме реального времени, он может корректировать свои мысли, чтобы получить желаемый результат. При достаточном обучении как пользователей, так и нейронных сетей мозг и компьютер могут встретиться посередине».

Это все еще спекулятивно, но легко увидеть, как технология такого рода может значительно улучшить жизнь людей, которые потеряли способность говорить, многие из которых полагаются на технологию поддержки речи, которая требует от людей совершать крошечные движения, чтобы управлять курсором, который выбирает символы или слова. Самым известным примером этого является система, которую использовал Стивен Хокинг, который описал ее так:

«Мой основной интерфейс с компьютером - через программу с открытым исходным кодом под названием ACAT, написанную Intel. Это обеспечивает программную клавиатуру на экране. Курсор автоматически сканирует эту клавиатуру по строке или по столбцу. Я могу выбрать персонажа, двигая щекой, чтобы остановить курсор. Движение моей щеки определяется инфракрасным датчиком, установленным на моих очках. Этот переключатель - мой единственный интерфейс с компьютером. ACAT включает в себя алгоритм предсказания слов, предоставленный SwiftKey, обученный на моих книгах и лекциях, поэтому мне обычно нужно ввести только первые пару символов, прежде чем я смогу выбрать слово целиком. Когда я построил предложение, я могу отправить его на свой синтезатор речи. Я использую отдельный аппаратный синтезатор производства Speech Plus. Это лучшее, что я слышал, хотя из-за него у меня акцент, который по-разному описывают как скандинавский, американский или шотландский».