Анатомия Urban Dictionary — первое исследование самого фривольного онлайн-словаря

Первое широкомасштабное исследование известного онлайн-словаря Urban Dictionary даёт уникальное представление о том, как развивается язык и как нужно на это реагировать.

318

О словаре

Urban Dictionary – это краудсорсинговый сайт, который записывает новые слова и их значения от пользователей интернета. Он начал своё существование в 1999 году как пародия на Dictionary.com, и за это время стал важным онлайн-ресурсом. Более того, известен случай, как в 2005 году судьи из Великобритании использовали сайт, чтобы понять сленг, на котором изъяснялись 2 рэпера, задействованные в конфликте.

Частично Urban Dictionary привлекает своим неформальным подходом, который позволяет практиковать как определения, так и описания слов. Здесь допускаются даже те вариации, которые могут быть оскорбительными. Этот ресурс быстро реагирует на появление новых слов и регистрирует многие изменения, которые появляются со временем. Через систему голосования пользователи высказывают восхищение или презрение, тем самым раскрывая популярность слов. Сегодня миллионы пользователей, которые хотят быть в курсе актуальных изменений в сленге английского языка, общем использовании слов и языковых трендов поп-культуры полагаются на этот сайт.

Конечно, Urban Dictionary имеет и свои недостатки. В отсутствие руководств по стилю, редакторов и модераторов контент может быть неопределённым, неточным и противоречивым. Кроме того, мало что известно о людях, которые публикуют новые слова и о том, отражают ли эти записи реальные изменения в языке или затрагивают только небольшие подгруппы людей.

Насколько хорош Urban Dictionary и можно ли сравнить его с традиционными онлайн-словарями? Донг Нгайен (Dong Nguyen) из Alan Turing Institute в Лондоне и несколько его знакомых решили сравнить Urban Dictionary с Wiktionary, другим краудсорсированным словарем, выдержанном в более официальном стиле. «Насколько нам известно, это первое систематическое исследование Urban Dictionary в таком масштабе», – говорят они.

Wiktionary – интересное сравнение, потому что он требует гораздо более формального подхода к краудсорсингам. Это сестринский сайт Wikipedia, управляемый той же Wikimedia. Он регистрирует только определения слов и даёт рекомендации о том, как их компилировать. Также объясняет пользователям, на основании чего базируется определение. Модераторы редактируют контент, контролируют вандализм и стремятся генерировать высококачественные результаты. Неудивительно, что Wiktionary также стал важным онлайн-ресурсом, который исследователи всё чаще используют для обработки данных на естественном языке и в других работах.

О цифрах

Нгайен и компания начинают анализировать содержание Urban Dictionary в максимально возможных пределах. Они посчитали, что ресурс содержит 2,661,625 определений для 1 620 438 слов и фраз. Большинство слов имеют только одно определение, в то время как другие располагают тысячей разных объяснений. Слово с наибольшим количеством определений – «эмо» (emo, 1 204 определений). Вот его основное определение:

«Ужасно неверно истолкованное и неправильно употребляемое слово. В современной культуре оно используется в качестве широкого термина для описания множества детей и подростков, которые выпрямляют волосы, закрывают чёлкой лицо, возможно, окрашивают волосы в чёрный цвет и носят обтягивающую одежду. К сожалению, это совершенно ошибочно. Настоящая музыка «emo» существовала в конце 1980-х и представляла собой поджанр хардкор-панк-рока; если уж на то пошло, «emo» – это сокращение от «Emotional hardcore punk rock». Люди из первых эмо-групп, одетые как обычные люди, просто играли музыку, которой они наслаждались. Начиная с формулировки и продолжающегося существования этой «горячей темы», термин emo неправильно поясняли и использовали в течение одного десятилетия. Вы можете только представить, как оригинальные группы относятся к клеветническим и массовым непониманиям».

В противоположность этому Wiktionary предлагает 5 определений для слова emo:

  • особый стиль хардкор-панк-рока;
  • человек или группа людей, связанные с этой субкультурой и музыкальным стилем;
  • любая форма альтернативного рока, отличающаяся особенной эмоциональностью;
  • человек или группа людей, связанные с модой или стереотипом относительно этого стиля рока;
  • молодой человек, который считается чрезмерно эмоциональным или стереотипным эмо.

Следующее слово с наибольшим числом определений в Urban Dictionary – это «любовь» (love, 1 140). Другие слова в десятке первых по количеству определений: бог (god), городской словарь (urban dictionary), пенис (chode), история Канады (Canada’s history), секс (sex), школа (school), вагина (cunt) и сцена (scene). С точки зрения популярности, отметки «Нравится» численно превосходят отметки «Не нравится». Но Нгайен и другие исследователи выяснили, что между толкованиями существуют значительные расхождения. Причём некоторые из объяснений имеют в 10 раз больше положительных оценок, другие – наоборот.

Команда также сравнивает лексический охват Urban Dictionary и Wiktionary. Оказывается, что совпадений на удивление мало – 72% слов из Urban Dictionary не представлены в Wiktionary. Тем не менее, исследователи отмечают, что многие слова в Urban Dictionary актуальны только для небольшой группы пользователей. Большинство из них – клички или имена собственные, например, Дэн Тейлор (Dan Taylor), к которому прилагается следующее определение: «Очень замечательный человек, который готовит лучшую тушёную говядину во всём мире». Такие субъективные понятия обычно имеют только одно значение.

Чтобы изучить более распространённые слова, команда также сравнивала только понятия, которые имеют два или более определений. В этом случае совпадений намного больше: всего лишь 25% определений появляются только в Urban Dictionary. Например, слово «поэтапный» (phased) появляется в обоих словарях как что-то, выполняемое шаг за шагом. Однако Urban Dictionary также описывает несколько других значений, к примеру: «Слово, которое используется, когда вы спрашиваете, не хочет ли кто-то подраться», «слово, которое обозначает то состояние, когда вы не пьяны, но и не трезвы».

В ходе этого анализа оказалось, что многие другие слова появляются исключительно на Wiktionary, если точнее – около 69% из них. Нгайен считает, что большинство из них – энциклопедические записи: акацетины, драматурги и шекспировские сонеты. Это позволяет команде сделать следующий вывод: «В целом мы можем сказать, что совпадение в этих двух словарях невелико».

Об особенностях

Значения Urban Dictionary также включают в себя мнения, отличные от аналогичных вариантов на Wiktionary. Одно из определений пива таково: «Возможно, лучшее, что когда-либо было изобретено. Я СЕРЬЁЗНО». Чтобы узнать, какую долю определений они составляют, команда оценивала каждое: было ли это личное мнение или объективное значение слова, знакомы ли сами исследователи с этим. Они обнаружили, что практически 50% значений для имён собственных были мнениями, и что работники были незнакомы с большинством из них. Они нашли много необычных определений, например: «кофе – человек, который кашляет».

Кроме того, в работе с онлайн-словарём обнаружилось, что значительная часть контента Urban Dictionary носила оскорбительный характер, но подобные записи обычно получали более низкие оценки.

«– Мы также выяснили, что слова с большим количеством определений, как правило, знакомы большему количеству пользователей. Можно предположить, что контент Urban Dictionary в некоторой степени отражает более широкие тенденции в использовании языка», – говорит Нгайен.

Исследовательская работа предоставляет уникальную возможность понять сайт, который сегодня играет важную роль в массовой культуре английского языка. Это должно послужить основой для других исследований. Интересно узнать, верно ли предположение о том, что онлайн-словари не только регистрируют лингвистические изменения, но и фактически управляют ими, как считают некоторые лингвисты.

ЧИТАЙТЕ ТАКЖЕ:

Источник: Technologyreview

Читайте также:

5 способів монетизувати креативний контент

Переход в онлайн: освоение технологий для пожилых

Новые технологии улучшат образование вашего ребёнка, но не его творческий потенциал

Как компании используют технологии для отслеживания работников