Следователь Джош Рассел поделился набором данных, выпущенным Twitter в BigQuery, - теперь вы можете писать запросы к нему.
Лучшие твиты по количествуретвитнул их хэштеги (на английском языке):
#standardSQL
SELECT hashtag, SUM(retweets) total_retweets
, ARRAY_AGG(STRUCT(retweets, tweet_text) ORDER BY retweets DESC LIMIT 1) top_tweet
FROM (
SELECT REGEXP_EXTRACT_ALL(tweet_text, r'(?i)#[^ ,:\.\";\!]*') hashtags, tweet_text, retweet_count retweets
FROM `reddit-198411.IRAhashed.IRAhashed` a
WHERE tweet_language = 'en'
), UNNEST(hashtags) hashtag
WHERE ARRAY_LENGTH(hashtags)>0
GROUP BY 1
ORDER BY 2 DESC
LIMIT 1000
Для других языков я экспортировал результаты в Google Sheet и запустил GOOGLETRANSLATE ()функция:
SELECT hashtag, retweets, top_tweet.*
FROM (
SELECT hashtag, SUM(retweet_count) retweets
, ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
FROM (
SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
, retweet_count, tweet_text, tweet_language
FROM `reddit-198411.IRAhashed.IRAhashed`
WHERE LENGTH(hashtags)>2
AND tweet_language NOT IN ('en', 'und')
), UNNEST(hashtags) hashtag
GROUP BY 1
ORDER BY 2 DESC
LIMIT 500
)
Я оставил другие запросы на / r / bigquery :