MediaWiki API: размер, в котором изображения, где встроены / отбрасываются несвязанные значки - PullRequest
2 голосов
/ 19 сентября 2011

Я использую MediaWiki API для поиска изображений статей в Википедии. Однако я также получаю все бесполезные значки, например метлу для очистки статьи или логотип Creative Commons, который помечает что-то для размещения под лицензией Creative Commons.

Есть ли способ определить, какие изображения являются такими значками, чтобы я мог их отбросить? Например. Есть ли способ запросить размер, при котором было внедрено изображение (а не размер исходного изображения, которое может быть огромным даже для значков), чтобы я мог отбросить все маленькие. Во всяком случае, я не очень заинтересован в очень маленьких изображениях.

1 Ответ

1 голос
/ 09 ноября 2011

Насколько я знаю, нет.Эта информация просто не сохраняется в базе данных и, следовательно, также недоступна через API.

Некоторые вещи, которые вы, возможно, могли бы сделать, включают:

  • Загрузка разметки HTMLстатьи (через API action=parse или просто через index.php с action=render) и извлеките из него размеры изображений.

  • Просто создайте список изображений, которые следует исключить.Вы можете сделать это программно (например, найти все изображения, используемые во всех шаблонах, включенных в Категория: шаблоны обслуживания Википедии и все ее подкатегории) или просто добавить любые нежелательные изображения в список исключений по мере их появления.

...