Я пытаюсь получить все статьи из Википедии о людях. В частности, я ищу:
- только заголовок страницы (и, возможно, идентификатор страницы)
- статей, которые о людях ,
- , разделенных полом (для простоты, мужского и женского пола),
- из текущего Engli sh Wikipedia .
Я попробовал несколько вещей, но ни одна из них не сработала:
API Википедии позволяет мне искать все страницы в данной категории . Однако при поиске в «мужчинах» или «женщинах» выбираются в основном страницы подкатегорий, а страницы о реальных людях скрываются в иерархии подкатегорий. Я не могу найти способ автоматического обхода иерархии.
PetScan позволяет мне указать глубину иерархии, но запрашивает время ожидания с глубиной, превышающей 3. Кроме того, как и в Wikipedia API, результаты включают статьи, не относящиеся к людям.
Wikidata позволяет мне писать SPARQL-запросы для поиска сущностей, имеющих пол "мужской" или "женский пол". Этот пример работает , но как только я включаю имена сущностей в запрос, он истекает. Кроме того, я не уверен, насколько точно эти данные соответствуют статьям Википедии - гарантированно ли эти данные будут такими же, как в Википедии?
Каков наилучший способ добиться того, что я ищу?