Мне дали набор данных в формате latin-1 .txt, который я пытаюсь очистить, чтобы использовать для правильного анализа с использованием python 3 и pandas. Набор данных, извлекаемый из html, содержит несколько вхождений \ xa0, с которыми я не могу справиться, используя decode, strip, -u replace или любой другой метод, который я обнаружил при переполнении стека. Все мои попытки, похоже, игнорируются Python, все еще выводя те же результаты. Поскольку я новичок в очистке данных, есть вероятность, что я упустил что-то очевидное, но сейчас я не вижу пути вперед
Я попытался декодировать в ascii, раздеться до str, а затем заменить или заменить с помощью выражения -u, не приводя ни к чему
filepath = 'meow3.txt'
outF = open("myOutFile.txt", "a")
with open(filepath) as fp:
line = fp.readline()
for line in fp:
if line.strip().startswith(','):
line = line.replace(',','',1)
line = line.replace(u'\xa0', u' ')
print(line)
df = pd.read_csv('myOutFile.txt', sep=",", encoding="latin-1", header=None, names=["Company name", "Total", "Invested since-to"])
print (df)
3sun Group, £10m ,Feb 2014
,Abacus, £4.15m ,Aug 2013
,Accsys Group ,£12m, Mar 2017,
Acro ,\xa0£7.8m, Nov 2015 – Sep 2017,
ACS Clothing, £25.3m ,Jan 2014
так выглядит набор данных и почему в моем коде я удаляю первую запятую, если она находится в начале столбца. Но ни один из предложенных ответов, которые я пробовал, похоже, не помог удалить часть набора данных \ xa0, все еще давая тот же результат (см. Выше). Если кто-нибудь знает, как я могу сделать эту работу, я был бы очень признателен,
Ура,
Иерихон
Редактировать: хотя я знаю, что лучше всего с этим справиться, предварительно обработав его до преобразования в текстовый файл, у меня нет доступа или контроля над этим процессом, и я должен работать с данными, которые мне дали.