У меня есть 6 CSV-файлов, в которых один столбец является предложением, а второй столбец является целым числом.
Предложения одинаковы для всех CSV-файлов, но они не в порядке ключей от файла к файлу.
Я хочу объединить все фреймы данных по предложению, чтобы у меня был один столбец предложений, а затем каждый целочисленный столбец, связанный с этим предложением, из каждого файла CSV.
Я пробовал различные методы слияния и сокращения с помощью общего столбца «предложение», но в результате я получаю на несколько порядков больше строк, чем следовало бы.
Например:
data_frames = [df1, df2, df3, df4, df5, df6]
reduce(lambda x,y: pd.merge(x,y, on='sentence', how='inner'), data_frames)
приводит к кадру данных с 12 502 455 строками !! У меня только 4825 строк в каждом CSV-файле.
, даже если использовать:
pd.merge(df1,df2, on='sentence', how='inner')
, получается кадр данных с 5295 строками.
Я знаю, что все предложения в файлах csv идентичны, потому что я загрузил в mTurk один и тот же файл предложений csv для пометки.