Подпись к изображению Викимедиа - PullRequest
0 голосов
/ 20 сентября 2019

Какой самый лучший способ получить подписи и описания для большинства / всех изображений в общем достоянии Викимедиа (сами изображения мне не нужны).Я знаю, что есть API, но я бы предпочел получать информацию оптом.

Например, когда я смотрю на https://commons.wikimedia.org/wiki/File:Schloss_Schönbühel_20180919.jpg,, я вижу, по крайней мере, резюме на немецком и английском языках.Я предполагаю, что это в какой-то таблице в структурированном виде.Я посмотрел на http://dumps.wikimedia.org/commonswiki/latest/commonswiki-latest-image.sql.gz,, но этот файл, похоже, содержит только основные метаданные изображения (размер, дата, ...)

Мне известно о Получить изображения из Wikimedia Commons ,она решает связанную, но другую проблему: depicts - это недавно представленная функция структурированных данных , а в ответе объясняется, как получать данные по одному, используя API-интерфейсы Wikibase, а не массово в дампе.

- ОБНОВЛЕНИЕ -

Кажется, что информация содержится в commonswiki-latest-pages-articles.xml.bz2 (один из дампов в https://dumps.wikimedia.org/commonswiki/latest/), но должен быть извлечен из полуструктурированного текстакаждая страница.

...