Найти лучшие хэштеги в наборе твитов троллей ИРА? - PullRequest
0 голосов
/ 23 октября 2018

Twitter только что выпустил миллионы твитов, связанных с интернет-тролл-фермой «Агентство интернет-исследований» (IRA).

Эти большие наборы данных включают 3841 учетную запись, связанную с IRA, происходящую из России, и 770другие учетные записи, потенциально происходящие из Ирана.Они включают в себя более 10 миллионов твитов и более 2 миллионов изображений, GIF-файлов, видеороликов и трансляций Periscope, включая самые ранние действия в Twitter с учетных записей, связанных с этими кампаниями, начиная с 2009 года.

Доступен ли набор данных в BigQuery?Как мне найти топ хэштеги?

1 Ответ

0 голосов
/ 23 октября 2018

Следователь Джош Рассел поделился набором данных, выпущенным Twitter в BigQuery, - теперь вы можете писать запросы к нему.

Лучшие твиты по количествуретвитнул их хэштеги (на английском языке):

#standardSQL
SELECT hashtag, SUM(retweets) total_retweets
  , ARRAY_AGG(STRUCT(retweets, tweet_text) ORDER BY retweets DESC LIMIT 1) top_tweet
FROM (
  SELECT REGEXP_EXTRACT_ALL(tweet_text, r'(?i)#[^ ,:\.\";\!]*') hashtags, tweet_text, retweet_count retweets 
  FROM `reddit-198411.IRAhashed.IRAhashed` a 
  WHERE tweet_language  = 'en'
), UNNEST(hashtags) hashtag
WHERE ARRAY_LENGTH(hashtags)>0
GROUP BY 1
ORDER BY 2 DESC
LIMIT 1000

enter image description here

Для других языков я экспортировал результаты в Google Sheet и запустил GOOGLETRANSLATE ()функция:

SELECT hashtag, retweets, top_tweet.*
FROM (
  SELECT hashtag, SUM(retweet_count) retweets
    , ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
  FROM (
    SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
      , retweet_count, tweet_text, tweet_language   
    FROM `reddit-198411.IRAhashed.IRAhashed` 
    WHERE LENGTH(hashtags)>2
    AND tweet_language NOT IN ('en', 'und')
  ), UNNEST(hashtags) hashtag
  GROUP BY 1
  ORDER BY 2 DESC
  LIMIT 500
)

enter image description here

Я оставил другие запросы на / r / bigquery :

...