Я хочу импортировать в Python текстовый файл, извлеченный из некоторой базы данных.Это плоский текстовый формат без разделителей конца строки (но я знаю, что должно быть фиксированное количество столбцов).Каждая новая строка идентифицируется с увеличенным идентификатором ("0001"
, "0002"
, "0003"
в примере ниже).
Я пробовал разные методы, в конечном итоге этот:
with open('url.txt', "rb") as f:
df = f.read().decode(errors="replace")
Но это дает мне гигантскую строку ... Затем я попробовал какое-то регулярное выражение, чтобы разделить Id с помощью цикла, а затем подразделитьна ","
проблема заключается в том, что иногда отсутствующие данные кодируются \N
без кавычек и никогда не возвращают одинаковое количество столбцов в строке.Образец данных:
"0001","2015-01-01","doc","eab4e80fec7352a7","https://www.paypal.com/us","setRequestHeader(\"Content-Type\")","0002","2015-01-02","doc","0",\N,\N,"0003",etc.
ожидаемый вывод должен быть pandas-кадром данных со столбцами: id, дата, тип документа, хэш, URL-адрес, код.Есть идеи, как мне это сделать?