Проблема с анализом турецкого текста при использовании стоп-слов "tr" с R - PullRequest
0 голосов
/ 06 сентября 2018

Я анализирую турецкий текст в R. Но есть проблема при использовании стоп-слов "tr" Хотя в указанной ссылке турецкий язык обозначен буквой "tr", он все равно не распознает его.

вот ошибка:

Ошибка: язык "tr" отсутствует в источнике "снежный ком". См. stopwords_getlanguages для получения дополнительной информации о поддерживаемых языках.

Любая помощь будет оценена.

1 Ответ

0 голосов
/ 06 сентября 2018

Вы почти у цели.Вам просто нужно изменить source того, откуда stopwords::stopwords получает язык.

tldr:

Для запуска вашего кода вам нужно:

stopwords::stopwords("tr", source = "stopwords-iso")
[1] "acaba"      "acep"       "adamakıllı" "adeta"      "ait"        "altmýþ"  ... 

Объяснение:

Это языки, доступные в исходном тексте по умолчанию = "снежный ком"

stopwords::stopwords_getlanguages(source = "snowball")
[1] "da" "de" "en" "es" "fi" "fr" "hu" "ir" "it" "nl" "no" "pt" "ro" "ru" "sv"

Чтобы получить турецкий, вам просто нужно изменить источник на source = "stopwords-iso".Ниже вы можете увидеть все стоп-слова, доступные в этом источнике.

stopwords::stopwords_getlanguages(source = "stopwords-iso")
 [1] "af" "ar" "hy" "eu" "bn" "br" "bg" "ca" "zh" "hr" "cs" "da" "nl" "en" "eo" "et" "fi" "fr" "gl" "de" "el" "ha" "he" "hi" "hu" "id" "ga"
[28] "it" "ja" "ko" "ku" "la" "lt" "lv" "ms" "mr" "no" "fa" "pl" "pt" "ro" "ru" "sk" "sl" "so" "st" "es" "sw" "sv" "th" "tl" "tr" "uk" "ur"
[55] "vi" "yo" "zu"

Это означает, что для запуска вашего кода вам необходимо:

stopwords::stopwords("tr", source = "stopwords-iso")
[1] "acaba"      "acep"       "adamakıllı" "adeta"      "ait"        "altmýþ"  ... 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...