Question

Мне дали набор данных в формате latin-1 .txt, который я пытаюсь очистить, чтобы использовать для правильного анализа с использованием python 3 и pandas. Набор данных, извлекаемый из html, содержит несколько вхождений \ xa0, с которыми я не могу справиться, используя decode, strip, -u replace или любой другой метод, который я обнаружил при переполнении стека. Все мои попытки, похоже, игнорируются Python, все еще выводя те же результаты. Поскольку я новичок в очистке данных, есть вероятность, что я упустил что-то очевидное, но сейчас я не вижу пути вперед

Я попытался декодировать в ascii, раздеться до str, а затем заменить или заменить с помощью выражения -u, не приводя ни к чему

filepath = 'meow3.txt'  
outF = open("myOutFile.txt", "a")
with open(filepath) as fp:  
    line = fp.readline()
    for line in fp:
        if line.strip().startswith(','):
            line = line.replace(',','',1)
        line = line.replace(u'\xa0', u' ')
        print(line)

df = pd.read_csv('myOutFile.txt', sep=",", encoding="latin-1", header=None, names=["Company name", "Total", "Invested since-to"])

print (df)

3sun Group, £10m ,Feb 2014 
,Abacus, £4.15m ,Aug 2013 
,Accsys Group ,£12m, Mar 2017, 
Acro ,\xa0£7.8m, Nov 2015 – Sep 2017, 
ACS Clothing, £25.3m ,Jan 2014

так выглядит набор данных и почему в моем коде я удаляю первую запятую, если она находится в начале столбца. Но ни один из предложенных ответов, которые я пробовал, похоже, не помог удалить часть набора данных \ xa0, все еще давая тот же результат (см. Выше). Если кто-нибудь знает, как я могу сделать эту работу, я был бы очень признателен, Ура, Иерихон

Редактировать: хотя я знаю, что лучше всего с этим справиться, предварительно обработав его до преобразования в текстовый файл, у меня нет доступа или контроля над этим процессом, и я должен работать с данными, которые мне дали.

idisposable11 · Answer 1 · 31 марта 2019

Может быть, поможет декодирование строки в UTF8

line = line.decode('UTF-8')

Затем выполните замену строки после этого, если необходимо.

Удалить юникод '\ xa0' из столбца панд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удалить юникод '\ xa0' из столбца панд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов