Ученые изучают ваш сленг в Твиттере, чтобы помочь ИИ

Ученые изучают ваш сленг в Твиттере, чтобы помочь ИИ
Ученые изучают ваш сленг в Твиттере, чтобы помочь ИИ

Математики изучили 100 миллиардов твитов, чтобы помочь компьютерным алгоритмам лучше понять нашу разговорную цифровую коммуникацию.

Image
Image

Ключевые выводы

  • Группа математиков из Университета Вермонта использовала Twitter, чтобы изучить, как молодые люди намеренно растягивают слова в тексте для цифрового общения.
  • Проанализировав язык примерно 100 миллиардов твитов, созданных за восемь лет, команда разработала два измерения для оценки закономерностей в твитах: баланс и растяжку.
  • Слова, которые люди растягивают, не произвольны, а имеют шаблонное распределение, например, какая часть слова растягивается или насколько она растягивается.

Что? что. ЧТО? Чтоооо?

Хотя все вышеперечисленное является выражением замешательства, вы понимаете, что они означают немного разные вещи. Это основано на том, как вы представляете себе, как звучит слово, обозначаемое повторением или ударением на определенных буквах. Основной смысл, заложенный в нашем просторечии, сленге и преднамеренно написанных с ошибками словах, заключается в том, как мы связываем наше цифровое общение с человеческими эмоциями.

Что, по совпадению, оказалось одной из главных проблем для искусственного интеллекта, обрабатывающего язык. Но ученые пытаются, и они изучают наш сленг в Твиттере, чтобы довести компьютеры до уровня того, как на самом деле общаются люди.

Image
Image

За последние два десятилетия социальные сети предоставили ученым кладезь бесплатной информации о человеческом поведении и языке. Группа математиков из Университета Вермонта использовала Twitter, чтобы изучить, как молодые люди намеренно растягивают слова в тексте для цифрового общения. Они создали метод количественной оценки семантических нюансов между растянутыми словами, такими как «правильно» и «рииииии», с целью научить будущие алгоритмы искусственного интеллекта человеческим цифровым разговорным выражениям.

«Письменное общение недавно начало кодировать новые формы выражения, в том числе эмоциональный акцент, создаваемый растягиванием слов», - сказал Крис Данфорт, профессор математики и статистики в Центре сложных систем Вермонта и член исследовательская группа, стоящая за исследованием.

В своем исследовании, опубликованном на прошлой неделе в журнале PLOS One, команда проанализировала язык примерно 100 миллиардов твитов, созданных с 2008 по 2016 год. Они разработали два измерения для оценки шаблонов в твитах: баланс и потягиваться. Например, хахахаха будет считаться растянутым миром с высоким балансом, в то время как такой термин, как wtffffff, является растянутым, но мало сбалансированным, поскольку только одна буква, f, способствует растяжимости. Это значит поставить ударение на мир, сокращенно буквой «ф».

«В наши дни так много общения происходит в электронном виде, что мы все пытаемся найти способы передать эмоции через текст. Смайлики помогают, но визуальный эффект 30 последовательных гласных в ругательстве превращает грубую ненормативную лексику в форму искусства», - сказал Дэнфорт.

Интересно, что использование удлиненных слов было обнаружено в разных языках. Например, по словам исследователей, «kkkkkkk» означает смех на бразильском португальском языке, а «wkwkwkwkwkwk» - на индонезийском языке.

В конечном счете, этот проект может помочь алгоритмам искусственного интеллекта понять важные внутренние значения, содержащиеся в идиосинкразических вариациях в нашем коммуникативном тексте или других лингвистических символах, таких как знаки препинания и смайлики.

Словарные определения вряд ли отражают то, как мы на самом деле общаемся друг с другом в цифровом виде. Однако исследователи обнаружили, что слова, которые люди растягивают, не являются произвольными. Скорее, они имеют шаблонное распределение, например, какая часть слова растянута или насколько она растянута. Разговорный цифровой язык - это, в конце концов, система символов, и для того, чтобы он мог передавать значение, мы все должны быть «в» шаблонах.

Это исследование показывает, что понимание растянутых слов, используемых в социальных сетях, открывает больше возможностей для того, чтобы помочь ИИ лучше понять наш сленг. Были разработаны инструменты и методы, которые могут быть полезны в будущих исследованиях, например, при изучении преднамеренных опечаток и орфографических ошибок.

Какие преимущества дает алгоритмам ИИ лучшее понимание нашего цифрового жаргона? Во-первых, возможно, будут применяться новые инструменты для улучшения обработки естественного языка, поисковых систем и спам-фильтров.

«Мы смогли всесторонне собрать и подсчитать растянутые слова, такие как «гооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооо за за заз зам» и «хахахаха», - заявляют исследователи в пресс-релизе, - и сопоставить их по двум измерениям общей эластичности и баланса». растяжения, при разработке новых инструментов, которые также помогут в их дальнейшем лингвистическом изучении, а также в других областях, таких как обработка языка, дополнение словарей, улучшение поисковых систем, анализ построения последовательностей и многое другое.”