определение арабского языка в R - PullRequest
0 голосов
/ 17 января 2019

Я работаю над текстом Mining in R на арабском языке, и у меня возникли проблемы с определением арабского языка в R studio. Я установил местный арабский, как показано здесь:

Sys.setlocale ( "LC_CTYPE", "арабский")

и отображается арабский язык, и я могу его прочитать, но когда я попытался вычислить частоту слов, он не определяет арабский язык и преобразует его в некоторые символы.

вот мой код и образец данных:

данные:

> head(data)
                                                                                            text joy anger
1 احاطه مجلس امن اليمن يوم مهمه لغايه يجب تكون اجهزه امم متحده واضحه تجاه تسويف حوثي تزامه انسحا   2     0
2                                           فارسلنا طوفان جراد قمل ضفادع دم ايات مفصل حشرات بكمي   0     0
3          امار تمنع سفرالمسؤل يمنين اراضيهالامن ترتضيه لاجل مصلحه وبينما تطيق يمني مطاراتها وقت   0     0
4                                                       عز تاج يفتخر راس اليمن وفخر ارض مشي يمني   2     0
5                                                   اقسم عظيم تحارب اقسم عظيم سعوديه تحافظا حوثي   2     0
6                                                      قرقاش احاطه مجلس امن اليمن يوم مهمه لغايه   1     0

код:

emotion_tweet = c(
  paste(data$text[data$anger > 0], collapse=" "),
  paste(data$text[data$joy > 0], collapse=" "))
# create corpus
corpus = Corpus(VectorSource(emotion_tweet))
# create document term matrix
tdm = TermDocumentMatrix(corpus)
tdm = as.matrix(tdm)#the emotion
# column name binding
colnames(tdm) = c('anger','joy')#column names

В результате tdm все термины являются символами, которые я не могу понять:

> head(tdm)
         Docs
Terms     anger  joy
  طھط      4933 6115
  طھظ      2716 3039
  طھظپ       12   18
  طھظپط     411  418
  طھظپطھ      1    3
  طھظپطھط     4    2
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...