Невозможно обнаружить юникод в R - PullRequest
0 голосов
/ 16 октября 2018

В R мы пытаемся обнаружить флажки и флажки.Полный PDF-файл читается через пакет pdftools и хранится в виде фрейма данных.enter image description here

Флажки хранятся в виде символа «U + F0A8» (удален знак <&>, заключающий символ «U + F0A8», так как он не виден с <Знаки &> При выполнении функций обнаружения строк или gref, или просто распечатки, эти символы не обнаруживаются и не печатаются.Пожалуйста, помогите.Я приложил скриншот для справки.

enter image description here

Пожалуйста, дайте мне знать, если вам нужна дополнительная информация.Заранее спасибо.

Ответы [ 2 ]

0 голосов
/ 27 октября 2018

Я нашел решение этой проблемы.

Строка (splitted_query_text_AA [77,1]) (2) Плановый год

stri_enc_isutf16be (splitted_query_text_AA [77,1]) [1] ИСТИНА

stri_escape_unicode (splitted_query_text_AA [77,1]) [1] "(2) \ uf0fe Plan Year"

str_detect (stri_escape_unicode (splitted_query_text_AA [77,10fefe) u [77,10fe))") [1] ИСТИНА

Спасибо

0 голосов
/ 16 октября 2018

Попробуйте использовать fixed, чтобы сравнивались только байты:

str_detect(String(splitted_query_text_AA[70,1]), fixed("<U+F0FE>"))
...