Есть ли способ в Polyglot навсегда «исправить» языковой код текста на иврите с «iw» на «he»? - PullRequest
1 голос
/ 28 марта 2019

Я хочу провести простой анализ настроений на иврите, используя Polyglot в python 3.6.Проблема заключается в том, что Polyglot распознает код текстового языка как «iw», а не как «он», и поэтому не может его обработать.

Как показано на: использовать пакет polyglot для распознавания именованных объектовна иврите Я уже добавил hint_language_code = 'he' к вызову функции Text, но он изменяет только начальную форму текста, а не его подформы (например, предложения или слова).

Например:

Ввод:

import polyglot
from polyglot.text import Text, Word

article='איך ניתן לנתח טקסט בעברית? והאם ניתן לשנות את הקידוד?'
txt = Text(article)
print(txt.language.code)

txt = Text(article,hint_language_code = 'he')
print(txt.language.code)

sent=txt.sentences[1]
print(sent.language.code)
print(sent)

Вывод:

iw
he
iw
והאם ניתן לשנות את הקידוד?

Как я могу навсегда изменить текст language_code с 'iw' на 'he'?

...