Я пытаюсь прочитать некоторые файлы Excel в пандах.В некоторых файлах интересующая таблица не полностью отформатирована, т.е. несколько строк форматируются как одна строка, но каждая такая строка имеет несколько строк.Таким образом, данные выглядят нормально при просмотре файла Excel.Также при анализе с использованием панд в конце каждой такой строки действительно есть символ новой строки (\ n).
Проблема в том, что когда я читаю его с помощью функции read_excel (), он преобразует его в DataFrame, который не считает этот разрыв строки отдельной строкой, а помещает его в одну строку с \ n.Я хотел бы написать код, который обрабатывает / конвертирует каждую такую строку с N строками как N строками (используя разрывы строк как индикатор для новой строки).
Есть ли способ сделать это либо при синтаксическом анализе файла, либо при последующей обработке кадра данных в Python?
Здесь я приведу очень упрощенную версию моего фиктивного файла Excel и некоторый код дляобъясните проблему.
Образец Excel-файла:
Name | Price
-------------------------------
Coca Cola | 46.66
-------------------------------
Google | 1204.44
Facebook | 177.58
-------------------------------
Berkshire Hathaway | 306513.75
Я просто использую read_excel Панда в Python:
dataframe_parsed = pandas.read_excel(file_name)
print(dataframe_parsed.head())
Я получаю следующий DataFrame в качестве вывода:
Name Price
0 Coca Cola 46.66
1 Google\nFacebook 1204.44\n177.58
2 Berkshire Hathaway 306513.75
Желаемый результат:
Name Price
0 Coca Cola 46.66
1 Google 1204.44
2 Facebook 177.58
3 Berkshire Hathaway 306513.75
Любая помощь будет высоко оценена.