Question

Я хотел подготовить набор данных, чтобы еще немного описать мой текущий анализ. Здесь я попытался получить данные из PDF. Но таблица была в сводном формате, поэтому мне пришлось заполнить данные «NaN». Мой нынешний подход работает нормально. Хотелось бы знать, есть ли лучший альтернативный подход для достижения этого без итерации фрейма данных. Это может помочь мне в случае больших объемов данных, чем этот.

import tabula
df = tabula.read_pdf("https://www.mohfw.gov.in/pdf/DistrictWiseList354.pdf")
df.rename(columns={'Unnamed: 0':'state',
                    'State/District wise Details of COVID-19 positive cases': 'District',
                    'Unnamed: 2':'no_of_cases'},
           inplace=True)
df.drop([0,1,2],inplace=True)
df.head()
for index, row in df.iterrows():    
    if(str(df.state[index]) != 'nan'):
        statename = df.state[index]        
    df.state[index] = statename

Лучшее решение для заполнения данных при чтении данных в формате сводной таблицы из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Лучшее решение для заполнения данных при чтении данных в формате сводной таблицы из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы