Моя цель - преобразовать файл xls в файл xlsx. Файл xls, который я пытаюсь преобразовать, на самом деле является html файлом, содержащим таблицы (этот файл xls получен в результате запроса от jira). Чтобы облегчить преобразование, я создал обработчик файла, а затем передал этот обработчик файла в красивый суп и извлек интересующую таблицу, а эта извлеченная таблица преобразована в строку и передана в pandas фрейм данных для дальнейшей обработки.
Это прекрасно работает, но когда размер файла велик, скажем, около 80 МБ, обработка занимает много времени. Как мне это преодолеть?
import bs4, os
import pandas as pd
print('Begin')
fileName = 'TestSample.xls'
fileHandler=open(fileName, encoding='utf-8')
soup = bs4.BeautifulSoup(fileHandler,'html.parser')
tbl = soup.find_all('table', id='issuetable')
df=pd.read_html(str(tbl))
df[0].to_excel("restult.xlsx", index=False)
print('Completed')