Как преобразовать нешифрованные данные в интернете в английский язык - PullRequest
0 голосов
/ 12 апреля 2019

Я удалил данные из Интернета, и их вывод в Unicode, как показано в комментарии

Теперь, как перевести эти данные на английский язык, используя R

1 Ответ

0 голосов
/ 12 апреля 2019

ваш dput поврежден.Я все еще пытаюсь воспроизвести ваши данные.И следуем этому решению.

library(stringi)
library(stringr)

a <- structure(list(ID = 7357, Title = structure(1L, .Label = "<U+0905><U+092C> <U+0928><U+0939><U+0940><U+0902> <U+091B><U+092A><U+0947><U+0917><U+0940> <U+0907><U+0928><U+094D><U+0938><U+093E><U+0907><\
U+0915><U+094D><U+0932><U+094B><U+092A><U+0940><U+0921><U+093F><U+092F><U+093E> <U+092C><U+094D><U+0930><U+093F><U+091F><U+0948><U+0928><U+093F><U+0915><U+093E>", class = "factor")))
titles <- as.character(a$Title)
titles_in_unicode <- lapply(
    unlist(strsplit(titles,' ')),
    FUN = function(words) {
        paste(stri_unescape_unicode(gsub("U+",
                                   "\\u",
                                   unlist(str_extract_all(words,
                                                          "U\\+([0-9]?)+([A-Z]?)+")),
                                   fixed=TRUE)),collapse='')
    }
)

Вывод

!> titles_in_unicode
 [[1]]
 [1] "अब"

 [[2]]
 [1] "नहीं"

 [[3]]
 [1] "छपेगी"

 [[4]]
 [1] "इन्साइक्लोपीडिया"

 [[5]]
 [1] "ब्रिटैनिका"
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...