Что означает эта ошибка (utf-8) при использовании SentenceTransformer? - PullRequest
0 голосов
/ 26 февраля 2020

У меня был рабочий код с BERT Sentence Transformer в течение нескольких недель. И из ниоткуда это начало выдавать ошибку. Я сократил свой код до одной строки, которая вызывает ошибку:

from sentence_transformers import SentenceTransformer

Полный массаж ошибок выглядит следующим образом:

runfile('C:/Users/ga2943/Gregor Schweitzer - Masterthesis Adrian/Code/FSzuBR_bert_distil_Multicluster.py', wdir='C:/Users/ga2943/Gregor Schweitzer - Masterthesis Adrian/Code')
Traceback (most recent call last):

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 3343, in run_code
    self.showtraceback(running_compiled_code=True)

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2026, in showtraceback
    self.showsyntaxerror(filename, running_compiled_code)

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2088, in showsyntaxerror
    stb = self.SyntaxTB.structured_traceback(etype, value, elist)

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\site-packages\IPython\core\ultratb.py", line 1420, in structured_traceback
    newtext = linecache.getline(value.filename, value.lineno)

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\linecache.py", line 16, in getline
    lines = getlines(filename, module_globals)

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\linecache.py", line 47, in getlines
    return updatecache(filename, module_globals)

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\linecache.py", line 137, in updatecache
    lines = fp.readlines()

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe4 in position 1904: invalid continuation byte

Иногда это приводит к другому массажу ошибок:

Traceback (most recent call last):

  File "<ipython-input-23-dbcd88385343>", line 1, in <module>
    from sentence_transformers import SentenceTransformer

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\site-packages\sentence_transformers\__init__.py", line 3, in <module>
    from .datasets import SentencesDataset, SentenceLabelDataset

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\site-packages\sentence_transformers\datasets.py", line 5, in <module>
    from torch.utils.data import Dataset

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\site-packages\torch\utils\data\__init__.py", line 1, in <module>
    from .sampler import Sampler, SequentialSampler, RandomSampler, SubsetRandomSampler, WeightedRandomSampler, BatchSampler

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\site-packages\torch\utils\data\sampler.py", line 1, in <module>
    import torch

  File "C:\Users\ga2943\AppData\Local\Continuum\anaconda3\lib\site-packages\torch\__init__.py", line 83, in <module>
    __all__ += [name for name in dir(_C)

NameError: name '_C' is not defined

Я не удалял библиотеки или что-то еще. Кто-нибудь знает, как решить мою ошибку? Что могло произойти автоматически в фоновом режиме?

Некоторые дополнительные факты:

  1. Тот же код работает на colab - поэтому сама библиотека не сломана.
  2. Он также перестал работать на компьютере моего коллеги, мы разделяем ту же папку, в которой находится код (это каталог в сообщении об ошибке)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...