Tweepy Streaming filter: почему фильтр не находит условия поиска? - PullRequest
0 голосов
/ 01 декабря 2018

Для поиска я использовал Tweepy Streaming filter для отслеживания нескольких поисковых запросов для фильтрации.Потоковый код работал нормально в течение 5 часов в рабочие часы и сгенерировал файл результатов размером 80 МБ.Я загрузил файл R 80MB;создал R dataframe, а затем выдал grepl («yield») для поиска термина внутри 80 МБ данных (потоковый файл).Я выполнил grepl () для всех столбцов с поисковым термином: «yield»;но ноль (0) фрейма данных с 0 столбцами и 193510 строками.Я также попробовал R dplyr select (содержит).Нулевой результат найден из твипного фильтра.

agfarm[,grepl("yield", colnames(agfarm$Value3))] #I tried all columns
agfarm %>% select(contains('yield'))

Файл результатов фильтра tweepy, по-видимому, не может найти и доставить даже один поисковый запрос успешно.Являются ли такие поисковые термины, как «урожайность» ИЛИ «управление урожаем» ИЛИ «урожайность» недопустимыми?Или твип фильтр не находит такие термины?Работает ли tweepy только с хэштегами: @, #?

my_stream_listener = PrintingStreamListener()
my_stream = tweepy.Stream(auth = api.auth, listener=my_stream_listener)

searchTermsFilter = '"soil yield" OR "nutrient yield" OR "managing crops" OR "food yield" OR "nutrient uptake" OR' \
          '"high yielding crop" OR "fertilizer" OR "soil health" OR "crop yield" OR "acre yield" OR' \
        '"nutrient management" OR "imbalance soil" OR "increase yield" OR "micronutrient" OR' \
        '"sustainability" OR "corn yield" OR "farmers management practices"'

my_stream.filter(track=searchTermsFilter)
...