Bigquery и Pushshift: декоратор временного диапазона не поддерживается для секционированных таблиц - PullRequest
0 голосов
/ 29 августа 2018

Я следую за сообщением по адресу https://pushshift.io/using-bigquery-with-reddit-data, в котором приведен пример SQL-запроса:

SELECT * FROM [pushshift:rt_reddit.comments@-60000-] LIMIT 1;

При этом я получаю следующую ошибку:

Декоратор временного диапазона не поддерживается для секционированных таблиц

На этой странице мне также не удается выполнить другие запросы. Что-нибудь изменилось с тех пор, как это было написано?

1 Ответ

0 голосов
/ 29 августа 2018

Похоже, что автор преобразовал таблицу, чтобы использовать временное разбиение с момента создания этой записи. Вы можете использовать фильтр для столбца created_utc, чтобы ограничить объем считываемых данных, например ::10000

SELECT * FROM pushshift.rt_reddit.comments WHERE DATE(created_utc) = '2018-06-26';

Если щелкнуть зеленую галочку справа и под редактором запросов в пользовательском интерфейсе BigQuery, вы должны увидеть что-то вроде Processing up to 676.57 MB., что намного меньше размера всей таблицы. В качестве другого примера, если вы хотите найти в комментариях определенное слово, как показано в некоторых запросах на этой странице, вы можете написать запрос, например:

SELECT COUNT(*), subreddit
FROM pushshift.rt_reddit.comments
WHERE created_utc BETWEEN '2018-05-01' AND '2018-05-31' AND
  LOWER(body) LIKE '%google%'
GROUP BY subreddit
ORDER BY 1 DESC;
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...