Я хотел подготовить набор данных, чтобы еще немного описать мой текущий анализ. Здесь я попытался получить данные из PDF. Но таблица была в сводном формате, поэтому мне пришлось заполнить данные «NaN». Мой нынешний подход работает нормально. Хотелось бы знать, есть ли лучший альтернативный подход для достижения этого без итерации фрейма данных. Это может помочь мне в случае больших объемов данных, чем этот.
import tabula
df = tabula.read_pdf("https://www.mohfw.gov.in/pdf/DistrictWiseList354.pdf")
df.rename(columns={'Unnamed: 0':'state',
'State/District wise Details of COVID-19 positive cases': 'District',
'Unnamed: 2':'no_of_cases'},
inplace=True)
df.drop([0,1,2],inplace=True)
df.head()
for index, row in df.iterrows():
if(str(df.state[index]) != 'nan'):
statename = df.state[index]
df.state[index] = statename