Не удается декодировать байт 0x96 - текст скопирован из Интернета - PullRequest
0 голосов
/ 31 октября 2019

Я пытаюсь выполнить анализ текста для текста, взятого вручную с веб-сайта (скопируйте и вставьте его в Блокнот в Windows или Редактирование текста в Mac). Я работаю между Mac и Windows и заметил, что когда я копирую / вставляю на Mac (сохраняю как .txt файл с кодировкой utf-8), у меня возникают проблемы с декодированием, когда я запускаю свой код python в Windows. Текущий:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x96 in position 6719: invalid start byte

Я полностью наивен для кодирования текста (поэтому я копирую / вставляю), но я предполагаю, что есть символ, который совместим с MacOS, но не Windows (правильно, если яошибаюсь). Я предполагал, что если я сохраню каждый файл как файл .txt, он будет совместим с обеими ОС. Из-за недостатка знаний я даже не могу найти решение, так как не знаю достаточно о том, как работает кодирование текста, чтобы даже начать диагностировать проблему.

По сути, я ищу решение, которое позволяет мне брать содержимое веб-страницы, сохранять его в виде txt-файла и открывать в python, иногда на Mac, а иногда в Windows.

Извиняюсь за отсутствие кода. Как я уже сказал, мой запрос - это скорее общая нехватка знаний, и я надеюсь, что кто-то может предоставить некоторые знания.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...