Я постараюсь прояснить проблему ниже. Я хочу выложить из Твиттера все твиты, рассказывающие о влиянии шторма Глория на средиземноморских морских трав Posidonia oceanica или Cymodocea nodosa . Поскольку я хочу только твиты с изображениями последствий урагана, я добавляю к запросу тег has:media
.
seagrasstweet30day_media_only <- search_30day(q = 'has:media(posidonia OR poseidonia OR #posidonia OR cymodocea OR cymo OR seagrass) (Gloria OR #Gloria OR temporal OR storm OR llevantada)',
n = 5000,
env_name = "research")
В результате получается 460 твитов. Однако некоторые из этих твитов на самом деле могут быть ретвитами, поэтому я отфильтрую их.
tweets_with_media <- seagrasstweet30day_media_only %>%
filter(is_retweet == F)
И это возвращает толпу с 24 уникальными твитами, которые имеют медиа. Однако, если я хочу загрузить изображения из этих твитов, мне нужен их URL. Поэтому я делаю следующее:
tweets_with_media_url <- seagrasstweet30day_media_only %>%
filter(is_retweet == F) %>%
filter(!is.na(media_url))
, который возвращает сообщение только с тремя твитами с media_url! Почему только 3, если я знаю, что их 24?
Например, твит, который я опубликовал в 2020-01-30 17:52:30, который правильно извлечен из Twitter и хранится в таблице tweets_with_media
, очевидно, должен быть столбец media_url, отличный от NA ...
Но, как вы можете проверить, используя этот фрагмент код, это не тот случай.
tweets_with_media %>%
filter(screen_name == "jordifpages", status_id == "1222940664029229057") %>%
select(screen_name, created_at, media_url) %>%
unnest(cols = media_url)
Этот столбец media_url этого твита равен NA
. Почему это так?