У меня есть электронная таблица с несколькими строками, которые содержат \ n, которые нужно разбить на отдельные строки.
Я могу открыть лист с помощью openpyxl и преобразовать лист в pandas фрейм данных, но я выдернул свои волосы, пытаясь понять, как разбить строки.
Вход:
Желаемый выход:
Обратите внимание, что строка 7 стала строкой 7 и строкой 8 - это желаемое поведение для любой строки, которая имеет \ n.
Любая помощь будет высоко ценится!
РЕДАКТИРОВАТЬ: мой дерьмовый оригинальный код ниже; это насколько я получил, и я не уверен, где go отсюда.
from openpyxl import load_workbook
from openpyxl import Workbook
import numpy as np
import pandas as pd
wb = load_workbook(filename="<filename>")
ws = wb["Page 1"]
# load worksheet into pandas dataframe
wsdf = pd.DataFrame(ws.values)
# create output wb/ws
output_wb = Workbook()
output_ws = output_wb.active
output_ws.title = "output"
# identify rows where crlf > 0
toBeSplit = []
pos = 0
for row in wsdf.iloc[:,1]:
#print ( pos, " ", str(row).count("\n") )
if ( str(row).count("\n") > 0 ):
toBeSplit.append(pos)
pos = pos + 1
print ( "Rows to be split: ", toBeSplit)
# write output
output_wb.save('<filename>')