Используя систему машинного обучения, известную как глубокая нейронная сеть, исследователи Массачусетского технологического института создали первую модель, которая может идентифицировать музыкальный жанр так же, как человек.
Нейробиологи обучают глубокую нейронную сеть анализировать речь и музыку
Энн Трафтон | Офис новостей Массачусетского технологического института
19 апреля 2018 г.
Используя систему машинного обучения, известную как глубокая нейронная сеть, исследователи Массачусетского технологического института создали первую модель, которая может воспроизвести человеческие действия при выполнении слуховых задач, таких как определение музыкального жанра.
Эта модель, состоящая из множества уровней блоков обработки информации, которые можно обучить на огромных объемах данных для выполнения конкретных задач, использовалась исследователями, чтобы пролить свет на то, как человеческий мозг может быть выполнение тех же задач.
«Эти модели впервые дают нам машинные системы, которые могут выполнять сенсорные задачи, которые важны для людей, и которые делают это на человеческом уровне», - говорит Джош Макдермотт, Фредерик А. и Кэрол Дж. Миддлтон, доцент кафедры нейробиологии кафедры мозга и когнитивных наук Массачусетского технологического института и старший автор исследования. «Исторически этот тип сенсорной обработки было трудно понять, отчасти потому, что у нас не было очень четкой теоретической основы и хорошего способа разработать модели того, что может происходить».
Исследование, опубликованное в выпуске журнала Neuron от 19 апреля, также предлагает доказательства того, что слуховая кора человека устроена в иерархическом порядке, подобно зрительной коре. В этом типе организации сенсорная информация проходит через последовательные этапы обработки, при этом основная информация обрабатывается раньше, а более сложные функции, такие как значение слова, извлекаются на более поздних этапах.
Ведущими авторами статьи являются аспирант Массачусетского технологического института Александр Келл и доцент Стэнфордского университета Дэниел Яминс. Другими авторами являются бывшая приглашенная студентка Массачусетского технологического института Эрика Шук и бывший постдоктор Массачусетского технологического института Сэм Норман-Хэньер.
Моделирование мозга
Когда в 1980-х годах были впервые разработаны глубокие нейронные сети, нейробиологи надеялись, что такие системы можно будет использовать для моделирования человеческого мозга. Однако компьютеры той эпохи не были достаточно мощными, чтобы создавать модели, достаточно большие для выполнения реальных задач, таких как распознавание объектов или распознавание речи.
За последние пять лет достижения в области вычислительной мощности и технологии нейронных сетей позволили использовать нейронные сети для выполнения сложных реальных задач, и они стали стандартным подходом во многих инженерных приложениях. Параллельно с этим некоторые нейробиологи пересмотрели возможность использования этих систем для моделирования человеческого мозга.
«Это была захватывающая возможность для нейронауки, поскольку мы действительно можем создавать системы, которые могут делать некоторые вещи, которые могут делать люди, а затем мы можем исследовать модели и сравнивать их с мозгом», - говорит Келл.
Исследователи Массачусетского технологического института обучили свою нейронную сеть выполнять две слуховые задачи: одну с речью, а другую с музыкой. Для речевого задания исследователи дали модели тысячи двухсекундных записей разговора человека. Задача состояла в том, чтобы определить слово в середине клипа. В музыкальном задании модель попросили определить жанр двухсекундного музыкального клипа. Каждый клип также включал фоновый шум, чтобы сделать задачу более реалистичной (и более сложной).
После многих тысяч примеров модель научилась выполнять задачу так же точно, как человек-слушатель.
«Идея заключается в том, что со временем модель все лучше и лучше справляется с поставленной задачей, - говорит Келл. «Мы надеемся, что он изучает что-то общее, поэтому, если вы представите новый звук, который модель никогда раньше не слышала, она будет работать хорошо, и на практике это часто бывает».
Модель также склонна делать ошибки в тех же клипах, где люди делают больше всего ошибок.
Блоки обработки, составляющие нейронную сеть, можно комбинировать различными способами, формируя различные архитектуры, влияющие на производительность модели.
Команда Массачусетского технологического института обнаружила, что наилучшей моделью для этих двух задач была та, которая разделяла обработку на два набора этапов. Первый набор этапов был разделен между задачами, но после этого он разделился на две ветки для дальнейшего анализа - одну ветку для речевой задачи и одну для музыкально-жанровой задачи.
Доказательства иерархии
Исследователи использовали свою модель для изучения давнего вопроса о структуре слуховой коры: организована ли она иерархически.
В иерархической системе ряд областей мозга выполняет различные типы вычислений с сенсорной информацией, проходящей через систему. Хорошо известно, что зрительная кора имеет такой тип организации. Более ранние области, известные как первичная зрительная кора, реагируют на простые функции, такие как цвет или ориентация. Более поздние этапы позволяют выполнять более сложные задачи, такие как распознавание объектов.
Однако было трудно проверить, существует ли этот тип организации в слуховой коре, отчасти потому, что не было хороших моделей, которые могли бы воспроизвести слуховое поведение человека.
«Мы подумали, что если бы мы могли построить модель, которая могла бы делать то же самое, что и люди, мы могли бы тогда сравнить различные этапы модели с различными частями мозга и получить некоторые доказательства того, могут ли эти части мозга быть организованы иерархически», - говорит Макдермотт.
Исследователи обнаружили, что в их модели основные характеристики звука, такие как частота, легче выделить на ранних стадиях. По мере того, как информация обрабатывается и перемещается дальше по сети, становится труднее извлекать частоту, но легче извлекать информацию более высокого уровня, такую как слова.
Чтобы увидеть, могут ли стадии модели воспроизвести то, как слуховая кора человека обрабатывает звуковую информацию, исследователи использовали функциональную магнитно-резонансную томографию (фМРТ) для измерения различных областей слуховой коры, когда мозг обрабатывает звуки реального мира.. Затем они сравнили реакцию мозга с реакцией модели при обработке тех же звуков.
Они обнаружили, что средние стадии модели лучше всего соответствуют активности в первичной слуховой коре, а более поздние стадии лучше всего соответствуют активности за пределами первичной коры. Это доказывает, что слуховая кора может быть организована иерархически, подобно зрительной коре, говорят исследователи.
«То, что мы видим очень ясно, - это различие между первичной слуховой корой и всем остальным», - говорит Макдермотт.
Алекс Хут, доцент нейрофизиологии и компьютерных наук в Техасском университете в Остине, говорит, что статья интересна отчасти потому, что предлагает убедительные доказательства того, что ранняя часть слуховой коры воспроизводит обычные звуки. обработки, в то время как высшая слуховая кора выполняет более специализированные задачи.
«Это одна из непрекращающихся загадок слуховой нейробиологии: что отличает раннюю слуховую кору от высшей слуховой коры? Это первая статья, которую я видел, в которой есть вычислительная гипотеза для этого», - говорит Хут, не участвовавший в исследовании.
Теперь авторы планируют разработать модели, которые могут выполнять другие типы слуховых задач, такие как определение местоположения, из которого пришел конкретный звук, чтобы выяснить, могут ли эти задачи быть выполнены путями, указанными в этом модели или если для них требуются отдельные пути, которые затем можно было бы исследовать в мозгу.
Исследование финансировалось Национальным институтом здравоохранения, Национальным научным фондом, аспирантской стипендией Департамента вычислительной техники и премией McDonnell Scholar.
Перепечатано с разрешения MIT News