spaCy - неизвестный UnicodeDecodeError при загрузке модели NER в Windows / Linux - PullRequest
0 голосов
/ 10 января 2020

Я работаю с командой ML, которая написала приложение NLP с Python и spaCy (2.2) ... команда обучила модель в AWS на хосте Linux EC2. Они сгенерировали модель NER, используя следующий API spaCy:

prdnlp.to_disk('./data/' + modelfile)

При попытке загрузить модель после обучения, а именно:

model_vetorizer_pair = spacy.load('./data/' + modelfile)

Модель отлично загружается на Ма c хосты OSX (в Docker.) При выполнении одного и того же кода в Docker контейнерах на Windows мы видим следующую трассировку стека:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xde in position 0: invalid continuation byte

Странно, что я ' Я вижу это же исключение при запуске кода в Docker в AWS Fargate (на хосте Linux). Короче говоря, мы можем загрузить модель в Ma c OSX, но не в Windows или амазон AWS Linux. Это расплывчатая проблема, и я не уверен на 100%, что проблема может быть вызвана ...

...