Pandas Dataframe с текстом и проблемы с кодировкой некоторых символов - PullRequest
0 голосов
/ 09 мая 2020

У меня есть набор данных, который включает столбец с некоторым текстом (тексты песен).

иногда в тексте есть слова (или символы), не декодированные правильно, вот пример:

'I keep trying Ainâ\\x80\\x99t no denyingWe should be together nowI canâ\\x80\\x99t imagineYouâ\\x80\\x99re with another man Baby'

в этом случае при поиске исходного текста эти «коды» (â \ x80 \ x99) указывают на одинарную кавычку - апостроф - но у меня много строк, и я не могу проверить каждую из них, а также у меня есть текст из таких языков, как русский, китайский, греческий и так далее ...

Я думал использовать регулярное выражение и найти все эти подстроки, но я не знаю, такой же шаблон (буква, две backsla sh, x плюс два числа)

или есть просто какой-то аргумент кодировки, который "читает" все символы?

спасибо за вашу помощь!

1 Ответ

1 голос
/ 09 мая 2020

Если я правильно понял ваш вопрос, вам нужно найти правильную кодировку вашего файла.

Найдите кодировку файла следующим образом:

# import the chardet library
import chardet 

# use the detect method to find the encoding
# 'rb' means read in the file as binary
with open(your_file, 'rb') as file:
    print(chardet.detect(file.read()))

Это snipet напечатает правильную кодировку файла, как показано ниже:

{'encoding': 'UTF-16', 'confidence': 1.0, 'language': ''}

Теперь откройте файл с правильной кодировкой.

Если у вас не установлена ​​библиотека chardet:

pip install chardet

Надеюсь, это вам поможет.

...