процентное несоответствие между триграммами bigquery и программой просмотра ngram? - PullRequest
0 голосов
/ 31 мая 2018

Может кто-нибудь помочь объяснить, что, по-видимому, является расхождением между триграммами bigquery и значениями процентилей средства просмотра ngrams (кажется, отличается для любой данной триграммы, но вот один конкретный пример, подтвержденный сообщением https://groups.google.com/forum/#!topic/bigquery-discuss/OT_W0ayVSvg)?

SELECT * FROM
(SELECT cell.value, cell.volume_fraction
FROM [bigquery-public-data:samples.trigrams] 
WHERE ngram = "of these dinosaurs" AND cell.value = "1888"),
(SELECT cell.value, cell.volume_fraction
FROM [bigquery-public-data:samples.trigrams] 
WHERE ngram = "of these dinosaurs" AND cell.value = "1890")

https://bigquery.cloud.google.com/savedquery/977440528149:1539bcaba54144d3bd9920c55ede72b9

1890 1,6196954972465177E-4 1888 1,6196954972465177E-4

https://books.google.com/ngrams/graph?content=of+these+dinosaurs&year_start=1888&year_end=1890&corpus=15&smoothing=0&share=&direct_url=t1%3B%2Cof%20these%20dinosaurs%3B%2Cc0

1890 0,0000001270% 1888 0,0000001256%

1 Ответ

0 голосов
/ 31 мая 2018

Такое расхождение объясняется тем, что вы используете два разных набора данных.Триграммы BigQuery считывают данные из образца набора данных, которые содержат определенные книги и могут быть изменены для целей тестирования. официальное описание :

Содержит триграммы на английском языке из образца произведений, опубликованных в период с 1520 по 2008 год.

В настоящее время Google Книги постоянно обновляютсяна основе Partner Program и Library Project, как вы можете видеть здесь .

Итак, вы сравниваете запрос в статическом демонстрационном наборе данных объемом 258 ГБ с платформой Google Книг.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...