У меня есть папка с большим количеством файлов. Эти файлы сохраняются под отдельными именами. Я хочу извлечь файлы на основе списка имен. Наконец, эти извлеченные файлы должны быть сохранены в новой папке.
Я импортировал все файлы в определенной папке
list_files = [file[0] for file in list_files]
Ниже приведен список файлов в папке
['C:/A/results/fie_d_t_group_Jack.xlsx',
C:/A/results/fie_d_t_group_Bill.xlsx',
C:/A/results/fie_d_t_group_Cort.xlsx',
C:/A/results/fie_d_t_group_Niel.xlsx',
C:/A/results/fie_d_t_group_Van.xlsx',
C:/A/results/fie_d_t_group_Dick.xlsx',
C:/A/results/fie_d_t_group_Nick.xlsx']
Далее из моего фрейма данныхсоздал список с конкретными именами, которые я хочу отфильтровать
from pyspark.sql.functions import pow, col
import pyspark.sql.functions as f
data = [
('a', 2016,'Jack'),
('a', 2017,'Bill'),
('a', 2018,'Dat'),
('a', 2015,'Jane'),
('b', 2016,'Cort'),
('b', 2017,'Nick'),
('b', 2018,'Lam'),
('b', 2015,'Jane')
]
df = spark.createDataFrame(data, ["A", "B","C"])
name_list = list(df.select('C').toPandas()['C'])
name_list
Я хочу отфильтровать эти файлы из списка и сохранить эти файлы в новом месте. Извлеченные файлы должны быть в следующем списке
['C:/A/results/fie_d_t_group_Jack.xlsx',
C:/A/results/fie_d_t_group_Bill.xlsx',
C:/A/results/fie_d_t_group_Cort.xlsx',
C:/A/results/fie_d_t_group_Nick.xlsx']
Этот список файлов должен быть сохранен в новом месте.