Генератор данных на основе условий Pandas - PullRequest
0 голосов
/ 18 июня 2019

Я вручную создал несколько фреймов данных, чтобы потом объединить их вместе на основе имеющегося у меня списка биграмм (причина, по которой я это делаю, выходит за рамки этого вопроса).Проблема в том, что я хочу, чтобы этот код запускался ежедневно или еженедельно, а созданные вручную кадры данных больше не будут работать, если после обновления данные изменились.Например, если посмотреть на приведенный ниже код, то, что если «data_science» больше не является биграммой, извлекаемой из моего кода на следующей неделе, и у меня есть еще один биграмм, например «hello_world», который не указан ниже в моем коде.Мне нужно настроить одну функцию, которая будет делать все это для меня.У меня есть около 50 фреймов данных, которые я делаю из своих реальных данных, поэтому даже без целей автоматизации было бы огромной экономией времени на выполнение функции для этого.КЛЮЧЕВОЙ смысл в том, чтобы я взял все эти биграммы из списка и назвал фрейм данных для каждого из них.Моя функция ниже с list_input - то, для чего я использую это.

   data_science = df[df['column_name'].str.contains("data") & 
   df['column_name'].str.contains("science")]
   data_science['bigram'] = "(data_science)"

   p_value = df[df['column_name'].str.contains("p") & 
   df['column_name'].str.contains("value")]
   p_value['bigram'] = "(p_value)"

   ab_testing = df[df['column_name'].str.contains("ab") & 
   df['column_name'].str.contains("testing")]
   ab_testing['bigram'] = "(ab_texting)"```


I am trying something like this code below but have not figured out how to make it work yet.
```def df_creator(a,b, my_list):
    for a,b in my_list:
        a_b = df[df['Message_stop'].str.contains(a) & 
        df['Message_stop'].str.contains(b)]
        a_b['bigram'] = "(a_b)"```
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...