У меня есть требование, в котором у меня есть три входных файла, и мне нужно загрузить их внутри фрейма данных Pandas, прежде чем объединить два файла в один фрейм данных.
Расширение файла всегда изменяется, это может быть .txt один раз и .xlsx или .csv в другой раз.
Как я могу запустить этот процесс параллельно, чтобы сэкономить время ожидания / загрузки?
Это мой код на данный момент,
from time import time # to measure the time taken to run the code
start_time = time()
Primary_File = "//ServerA/Testing Folder File Open/Report.xlsx"
Secondary_File_1 = "//ServerA/Testing Folder File Open/Report2.csv"
Secondary_File_2 = "//ServerA/Testing Folder File Open/Report2.csv"
import pandas as pd # to work with the data frames
Primary_df = pd.read_excel (Primary_File)
Secondary_1_df = pd.read_csv (Secondary_File_1)
Secondary_2_df = pd.read_csv (Secondary_File_2)
Secondary_df = Secondary_1_df.merge(Secondary_2_df, how='inner', on=['ID'])
end_time = time()
print(end_time - start_time)
Мне требуется около 20 минут, чтобы загрузить мои primary_df и second_df. Итак, я ищу эффективное решение, возможно, использующее параллельную обработку для экономии времени.
Я рассчитал операцию чтения, и это занимает большую часть времени примерно 18 минут 45 секунд.
Аппаратная конфигурация: - Процессор Intel i5, 16 ГБ оперативной памяти и 64-разрядная ОС
Вопрос сделан Право на получение награды: - Как я ищу работу
код с подробными инструкциями - используя пакет с анакондой
окружение , которое поддерживает загрузку моих входных файлов Parallel и
хранить их в фрейме данных панд отдельно. Это должно в конечном итоге
сэкономить время.