Распознавание Python и имени для арабского языка - PullRequest
0 голосов
/ 08 июня 2018

Я исполняю НЭР на арабском языке.Код выглядит следующим образом:

from polyglot.text import Text
blob = "مرحبا اسمي rahul agnihotri أنا عمري 41 سنة و الهندية"
text = Text(blob)
text = Text(blob, hint_language_code='ar') #ar stands for arabic
print(text.entities)

После выполнения указанного выше кода в Ubuntu я получаю следующее сообщение об ошибке:

SyntaxError: не-ASCII символ '\ xd9' в файле./ner.py в строке 4, но кодировка не объявлена;см. http://python.org/dev/peps/pep-0263/ для деталей

Однако, если я включу # - - кодирование: utf-8 - - это работает, и вот вывод:

[I-LOC([u'\u0627\u0644\u0647\u0646\u062f\u064a\u0629'])]

Это не тот желаемый выход, который я ищу.Желаемый вывод должен быть на арабском языке не таким образом.

К вашему сведению: все необходимые библиотеки установлены.

1 Ответ

0 голосов
/ 08 июня 2018

UTF-8 кодированный текст должен быть декодирован.Когда вы печатаете, вы видите кодировку.Так что это должно быть расшифровано.Я не знаком с полиглотом, и не могу подтвердить это, но, пожалуйста, попробуйте это.

, если вы хотите устранить зависимость кодировки файлов, то после установки Blob используйте: blob.encode ('utf-8'), а затем декодировать utf-8 для печати: print (text.entities.decode ('utf-8')) *

...