BigQuery, отфильтровывающий собственный текст, содержащий слово во всех возможных сообщениях в subreddit - PullRequest
0 голосов
/ 04 июля 2019

Я пытаюсь получить сообщения и их комментарии в субреддите AskDocs об Аспергере, этот sql отлично работает для получения сообщений

#standardSQL
SELECT
  TIMESTAMP_TRUNC(TIMESTAMP_SECONDS(created_utc), MONTH, 'America/New_York') AS date_agg, title,selftext

FROM
  `fh-bigquery.reddit_posts.*`
WHERE
  (_TABLE_SUFFIX BETWEEN "2016_01" AND "2019_03" OR _TABLE_SUFFIX = 'full_corpus_201512')
  AND subreddit = 'AskDocs'
  AND REGEXP_CONTAINS(selftext, r'Asperger')

ORDER BY
  date_agg

Но я не уверен, что с этим я получу всесообщений, которые доступны, я получил 169 строк, но я пытаюсь получить как можно больше информации в AskDocs на эту тему.

И второй вопрос, потому что я пытаюсь связать каждое сообщение с его комментариями,Я нашел это здесь в SO

#standardSQL
SELECT posts.title, comments.body
FROM `fh-bigquery.reddit_comments.2016_01` AS comments
JOIN `fh-bigquery.reddit_posts.2016_01`  AS posts
ON posts.id = SUBSTR(comments.link_id, 4) 
WHERE posts.id = '43go1r'

Но когда я пытаюсь объединить свой код здесь, у меня возникает настоящий беспорядок

...