FastText преобразует тексты на иврите в нечитаемую кодировку - есть ли способ конвертировать обратно? - PullRequest
1 голос
/ 22 апреля 2019

Примечание: С тех пор обнаружили, что сам файл .txt уже закодирован в нечитаемом формате ... есть ли способ прочитать файл .txt в читаемом формате?

b '' b '\ xd7 \ xa7 \ xd7 \ x90 & \ xd7 \ xa0 \ xd7 \ xa6 \ xd7 \ x9c \ xd7 \ xa8 \ xd7 \ x99 \ xd7 \ xaa \ xd7 \ x92 \ xd7 \ xa8 \ xd7 \ x9e \ xd7 \ xa0 \ xd7 \ x99 \ xd7 \ x94 \ xd7 \ x90 \ xd7 \ xa0 \ xd7 \ x92 \ xd7 \ x9c \ xd7 \ x94 \ xd7 \ x9e \ xd7 \ xa8 \ xd7 \ xa7 \ xd7 \ x9c \ xd7 \ x90 \ xd7 \ x9e \ xd7 \ xa8 \ xd7 \ x90 \ xd7 \ xaa \ xd7 \ x9e \ xd7 \ xa9 \ xd7 \ x95 \ xd7 \ xaa \ xd7 \ x9e \ xd7 \ xa4 \ xd7 \ x9c \ x7 \ x92 \ xd7 \ x94 \ xd7 \ xa9 \ xd7 \ x99 & \ xd7 \ x9c \ xd7 \ x98 \ xd7 \ x95 \ xd7 \ x9f \ xd7 \ x93 \ xd7 \ xa6 \ xd7 \ x9e \ xd7 \ x91 \ xd7 \ xa8 «

Я пытаюсь использовать FastText для создания встраивания слов для текста на иврите. Похоже, FastText автоматически преобразует тексты в другую (нечитаемую) кодировку символов. Кто-нибудь знает, почему это происходит и как преобразование можно отменить?

Я использую Python 3.5 на компьютере с Windows. Попытался прочитать векторизованные слова как кодировку «UTF-8», но они все равно появились в нечитаемом формате.

model = fasttext.cbow('your_file.txt', 'model')
model.words # list of words in dictionary

Вот как вышли векторы:

{'': <gensim.models.keyedvectors.Vocab at 0x1ca3f6cc208>,
 '8\\xd7\\x95\\xd7\\xa0\\xd7\\x99\\xd7\\x94': <gensim.models.keyedvectors.Vocab at 0x1ca3b2fbda0>,
 '2.199': <gensim.models.keyedvectors.Vocab at 0x1ca3aadf470>,
 '42381': <gensim.models.keyedvectors.Vocab at 0x1ca3b348160>,
 '7648': <gensim.models.keyedvectors.Vocab at 0x1ca3b0b7208>,
 '1.9841': <gensim.models.keyedvectors.Vocab at 0x1ca3afd8080>,
 '7\\x91\\xd7\\x90"\\xd7\\x90': <gensim.models.keyedvectors.Vocab at 0x1ca3b313e80>,
 "xa0\\xd7\\x92'\\xd7\\x99&\\xd7\\x9e\\xd7\\x99\\xd7\\x9f": <gensim.models.keyedvectors.Vocab at 0x1ca3ab7b7f0>,
 '9e\\xd7\\x90\\xd7\\x9c': <gensim.models.keyedvectors.Vocab at 0x1ca3ad39748>,
 "a4\\xd7\\x99'": <gensim.models.keyedvectors.Vocab at 0x1ca3a8e9b38>,
 '\\x90\\xd7\\x95': <gensim.models.keyedvectors.Vocab at 0x1ca3ad7fe48>,
 '3501': <gensim.models.keyedvectors.Vocab at 0x1ca3aa1fbe0>,
 '7214': <gensim.models.keyedvectors.Vocab at 0x1ca3a798cf8>,
 '87195': <gensim.models.keyedvectors.Vocab at 0x1ca3aab47b8>,
...