UnicodeDecodeError Traceback (последний вызов последнего) в () ----> 1 печать (corpus.words ())
/ anaconda3 / lib / python3.6 / site-packages / nltk / collection.py в repr (self) 224 штук = [] 225 length = 5 -> 226 для elt in self: 227parts.append (repr (elt)) 228 длина + = len (штук [-1]) + 2
/ anaconda3 / lib / python3.6 / site-packages / nltk / corpus / reader / util.py in iterate_from (self, start_tok) 400 401 # Получите все, что мы можем из этого куска.-> 402 для токов в piece.iterate_from (max (0, start_tok-offset)): 403 выходных токов 404
/ anaconda3 / lib / python3.6 / site-packages / nltk / corpus / reader /util.py в iterate_from (self, start_tok) 294 self._current_toknum = toknum 295 self._current_blocknum = block_index -> 296 токенов = self.read_block (self._stream) 297 утверждают isinstance (токены, (кортеж, список, AbstractLazy), (298 'читатель блока% s () должен вернуть список или кортеж.'%
/ anaconda3 / lib / python3.6 / site-packages / nltk / corpus / reader / plaintext.py в _read_word_block (self), stream) 120 слов = [] 121 для i в диапазоне (20): # читать 20 строк за раз. -> 122 words.extend (self._word_tokenizer.tokenize (stream.readline ())) 123 возвращать слова 124
/ anaconda3 / lib / python3.6 / site-packages / nltk / data.py в readline (self, size) 1166, в то время как True: 1167 startpos = self.stream.tell () - len (self.bytebuffer) -> 1168 new_chars = self._read (readsize) 1169 1170 # Если мы находимся в '\ r', то читаем еще один дополнительный символ, так как
/ anaconda3 / lib / python3.6 / site-packages / nltk / data.py в _read (self, size) 1398 1399 # Декодировать байты в символы Юникода -> 1400 символов, bytes_decoded = self._incr_decode (bytes) 14011402 # Если мы получили байты, но не смогли их декодировать, тогда читайте дальше.
/ anaconda3 / lib / python3.6 / site-packages / nltk / data.py в _incr_decode (self, bytes) 1429, покаTrue: 1430 try: -> 1431 возвращает self.decode (bytes, 'strict') 1432 за исключением UnicodeDecodeError as exc: 1433 # Если исключение происходит в конце строки,
/ anaconda3 / lib / python3.6 / encodings / utf_8.py in decode (input, errors) 14 15 def decode (input, errors = 'strict'): ---> 16 return codecs.utf_8_decode (input, errors, True) 17 18 класс IncrementalEncoder (codecs.IncrementalEncoder):
UnicodeDecodeError: кодек «utf-8» не может декодировать байт 0x80 в позиции 395: недопустимый начальный байт
Я просматривал различные сообщения,но я все еще не могу сказать, если проблема в том, что я использую неправильные методы или что ядолжен кодировать или декодировать что-то.Если бы это был последний, я не знаю где.Любые идеи были бы хорошы.