Как обрабатывать слова с ошибками в документах для задач интеллектуального анализа текста? - PullRequest
0 голосов
/ 25 ноября 2010

У меня есть набор неофициальных документов (несколько тысяч), к которым я хочу применить тематическое моделирование (MALLET).Проблема в том, что в документах содержится много слов с ошибками.Большинство из них являются преднамеренными, такими как короткие формы и локальные языки, такие как `'juz' -> 'just', 'alr' -> 'Уже'.Существует несколько таких вариаций из-за особых стилей написания разных авторов.

После подачи их в MALLET я немного обеспокоился тем, что одна из сгенерированных тем на самом деле представляет собой набор слов с орфографическими ошибками.Я полагаю, что эти слова в основном используются в небольшом подмножестве документов того же автора, поэтому МАЛЛЕТ поднял их.

Мой вопрос заключается в том, проверяю ли я орфографию и исправляю ли эти наборы слов с ошибками и, возможно, сохраняюисправленный текст где-нибудь, прежде чем проводить на них дальнейшие задания?Я полагаю, это означало бы, что мне нужно вручную проверить исправления, прежде чем совершать, верно?Какой самый эффективный способ сделать это?

Или я действительно игнорирую эти слова с ошибками?

Ответы [ 2 ]

0 голосов
/ 25 ноября 2010

Что вы делаете со стоп-словами в данный момент? Если вы занимаетесь тематическим моделированием, то имеет смысл отфильтровать их. Если так, то почему бы вам не отфильтровать эти термины?

[Изменить в ответ на ответ]

Существует некоторое исследование о том, как обрабатывать стоп-слова в LDA более принципиальным образом. На ум приходят две статьи:

  1. Схемы временного взвешивания для скрытого распределения Дирихле
  2. Переосмысление LDA: Почему Приоры имеют значение.

[ 1 ] использует схему взвешивания терминов, которая, очевидно, помогает в задаче прогнозирования, которую они устанавливают, [ 2 ] использует несимметричный априор над распределениями слов, что, по-видимому, приводит к на несколько тем, которые содержат все стоп-слова и другие слова, общие для всего корпуса.

Мне кажется, что лучший способ автоматически определять стоп-слова и другие не относящиеся к теме слова в LDA - это еще вопрос исследования.

0 голосов
/ 25 ноября 2010

Я не думаю, что мы можем ответить на этот вопрос, не зная влияния слов с ошибками или слов с ошибками на результат моделирования вашей темы.Так что, если бы вы могли дать больше информации, это было бы хорошо.

Однако я бы подумал, что вы хотите исправить их, по крайней мере, когда исправление явно является намерением первоначального автора.

...