Поскольку машины в нашей жизни изо всех сил пытаются понять простую речь, есть ли шанс, что они когда-нибудь смогут понять наши эмоции? Так считают исследователи Реза Асади и Харриет Фелл.
Мы изо всех сил пытаемся общаться с компьютерами в нашей жизни естественным образом. Просто подумайте о том, сколько раз вам приходится кричать на свой Xbox One, чтобы он понял простую команду, или о том, как терпеливо вы преувеличиваете каждый слог, чтобы Siri могла поставить нужную песню, а не пытаться позвонить своему бывшему парню. Мы мечтаем о том дне, когда сможем говорить с нашими машинами так же, как Тони Старк разговаривает с Джарвисом. Но говорить - это гораздо больше, чем понимать отсылки к поп-культуре, идиомы и языковые нюансы; есть эмоциональная составляющая, которую нужно выяснить.
Натан Коллинз из Pacific Standard пишет, что новое исследование показало, что если компьютеры прислушиваются к правильным словесным сигналам, они могут правильно идентифицировать эмоции в девяти случаях из 10.
Исследователи Реза Асади и Харриет Фелл изучили три особенности человеческой речи: коэффициенты мел-частоты кепстра (MFCC), которые, как пишет Коллинз, «разделяют эффекты горла, языка и губ, которые воздействуют на в качестве фильтров основного звука голосовых связок человека»; Teager Energy Operators (TEO), измеряющие расход воздуха; и ориентиры или переходные точки в речи.
Асади и Фелл хотели проверить, достаточно ли измерения этих характеристик программе для точного определения шести эмоциональных состояний (гнева, страха, отвращения, печали, радости и нейтральности). Для проведения теста они использовали набор аудиозаписей из Консорциума лингвистических данных «Эмоциональная просодия и стенограммы речи».
Они написали о своих результатах:
«В частности, функции TEO привели к улучшению обнаружения гнева и страха, а функции-ориентиры улучшили результаты обнаружения грусти и радости. Классификатор имел самую высокую точность, 92 процента, в обнаружении гнева и самую низкую, 87 процентов, в обнаружении радости».