У меня есть следующая таблица «df_features» в качестве вывода:
df_features
FeatureSet ProcessingStatus AttributeName AttributeHeader SelectedFlag CreationDate
-----------------------------------------------------------------------------------------
First_Test On Apple Fruit True 01.06.2020
First_Test On Banana Fruit True 01.06.2020
First_Test On Watermelon Fruit True 01.06.2020
Second_Test Off Black Color False 02.07.2020
Second_Test Off White Color False 02.07.2020
Third_Test On Cat Animal True 08.07.2020
Third_Test On Dog Animal True 08.07.2020
Third_Test On Bird Animal True 08.07.2020
Third_Test On Deer Animal True 08.07.2020
Я хочу перебрать df_features и получить каждый FeatureSet со статусом ProcessingStatus «On», а затем получить список AttributeHeaders и AttributeNames внутри этих наборов функций, разделенных точкой (AttributeHeader.AttributeName). (За исключением CreationDate)
В этом случае у нас есть два FeatureSet со статусом ProcessingStatus «On».
First_Test = ['Fruit.Apple', 'Fruit.Banana', 'Fruit.Watermelon']
Third Test = ['Animal.Cat', 'Animal.Dog', 'Animal.Bird', 'Animal.Deer']
Если нет FeatureSet со статусом ProcessingStatus «On», он должен остановиться.
Атрибуты (Fruit.Apple, Fruit.Banana, ...) - это имена столбцов, которые существуют в исходном DataFrame (df), который также содержит данные каждого атрибута. DataFrame имеет всего около 45 столбцов.
На следующем шаге я хочу извлечь DataFrame (df) в атрибуты самого старого FeatureSet df_features и вызвать извлечение «analysis_columns». (Самый старый FeatureSet в этом примере - First_Set с CreationDate 01.06.2020)
analysis_columns
Fruit.Apple Fruit.Banana Fruit.Watermelon
----------------------------------------------
424 45353 333
12 5 101
9696 70 66
... ... ...
Я не уверен, как это сделать наилучшим и наиболее эффективным способом.