Python: объединение файлов и удаление дубликатов - PullRequest
0 голосов
/ 31 октября 2018

У меня есть 3 файла Excel, каждый с 4000 строк и 5 столбцов. Я хочу объединить файлы Excel в кадре данных и удалить дублирующиеся строки. Впоследствии я хочу опубликовать результат в виде файла Excel:

 import pandas as pd

 import numpy as np

 filenames = ['Sample_a.xlsx','Sample_b.xlsx','Sample_c.xlsx']

 dataframes = [pd.read_excel(f) for f in filenames]

 new_dataframe = df.dropduplicates(dataframes)

Куда я иду с этим?

Ответы [ 2 ]

0 голосов
/ 31 октября 2018

После преобразования файлов Excel в список в переменную dataframes необходимо преобразовать его во фрейм данных. Я нашел решение, надеюсь, вы найдете здесь ответ.

`import pandas as pd
import numpy as np

filenames = ['csv/2009.xlsx', 'csv/2010.xlsx', 'csv/2011.xlsx']
olddf=pd.DataFrame()
for f in filenames:
    df=pd.read_excel(f)
    olddf=pd.concat([olddf,df]).drop_duplicates().reset_index(drop=True)`
0 голосов
/ 31 октября 2018

Трудно сказать, не имея возможности воспроизвести ваши результаты (мы не знаем, что находится в ваших файлах), но вы пытаетесь исключить дубликаты из списка фреймов данных. Разве вы не должны работать с самими датафреймами?

new_dataframes = [df.drop_duplicates(d) for d in dataframes]
...