Количество записей Wikidata на данном языке - PullRequest
0 голосов
/ 03 июля 2018

Интересно, как я могу узнать, сколько ярлыков в Викиданных для каждого языка, из общего количества записей в 50 миллионов.

Например, в https://query.wikidata.org для каталонского языка ("ca"), который я пробовал с

SELECT ?lang (COUNT(DISTINCT ?item) AS ?count) WHERE {
  ?item schema:inLanguage "ca" .
} GROUP BY ?lang
ORDER BY DESC (?count)

и получил результат 703351, но я думаю, что это не правильно, потому что я скачал дамп Wikidata (из https://dumps.wikimedia.org/wikidatawiki/entities/), и я уже извлек более двух миллионов ярлыков в Catalán (и процесс извлечения все еще работает)

Итак, есть какая-нибудь подсказка, что я делаю не так?

Спасибо!

1 Ответ

0 голосов
/ 04 июля 2018

Как указано в примечаниях выше, используя Quarry:

https://quarry.wmflabs.org/query/27976

USE wikidatawiki_p; 
DESCRIBE wb_terms;

SELECT COUNT(*) FROM wb_terms
WHERE term_type = 'label' AND term_language = "ca";
...