Как почистить несортированный список ссылок из википедии - PullRequest
0 голосов
/ 26 декабря 2018

Я пытаюсь получить всю ссылку с этой страницы википедии https://en.wikipedia.org/wiki/Ivan_Krypiakevych, вы можете видеть на этой странице первая ссылка украинская, вторая - Львовский университет, третья - Украина и т. Д.

Я пытался использовать Python WikipediaAPI, но он возвращает мне все ссылки, но они отсортированы от А до Я.

Мой код:

from bs4 import BeautifulSoup as bs
import requests
from pprint import pprint
import wikipediaapi

def print_links(page):
        links = page.links
        for title in sorted(links.keys()):
            print("%s: %s" % (title, links[title]))

wiki_wiki = wikipediaapi.Wikipedia(
        language='en',
        extract_format=wikipediaapi.ExtractFormat.WIKI
)

page_py = wiki_wiki.page('Ivan Krypiakevych')
print_links(page_py)

Код возвращает меня

> Austrian Galicia: Austrian Galicia (id: ??, ns: 0) Biblioteca Nacional
> de España: Biblioteca Nacional de España (id: ??, ns: 0) Bohdan
> Khmelnytsky: Bohdan Khmelnytsky (id: ??, ns: 0) Bourgeois nationalism:
> Bourgeois nationalism (id: ??, ns: 0) Báthory: Báthory (id: ??, ns: 0)
> Category:Wikipedia articles with BNE identifiers: Category:Wikipedia
> articles with BNE identifiers (id: ??, ns: 14) Category:Wikipedia
> articles with GND identifiers: Category:Wikipedia articles with GND
> identifiers (id: ??, ns: 14) Category:Wikipedia articles with ISNI
> identifiers: Category:Wikipedia articles with ISNI identifiers (id:
> ??, ns: 14) Category:Wikipedia articles with LCCN identifiers:
> Category:Wikipedia articles with LCCN identifiers (id: ??, ns: 14)
> Category:Wikipedia articles with LNB identifiers: Category:Wikipedia
> articles with LNB identifiers (id: ??, ns: 14) Category:Wikipedia
> articles with SUDOC identifiers: Category:Wikipedia articles with
> SUDOC identifiers (id: ??, ns: 14) Category:Wikipedia articles with
> VIAF identifiers: Category:Wikipedia articles with VIAF identifiers
> (id: ??, ns: 14) Chełm Land: Chełm Land (id: ??, ns: 0) ... ...
> Ukrainian language: Ukrainian language (id: ??, ns: 0) Ukrainian
> nationalism: Ukrainian nationalism (id: ??, ns: 0) Virtual
> International Authority File: Virtual International Authority File
> (id: ??, ns: 0) Western Ukraine: Western Ukraine (id: ??, ns: 0)
> WorldCat Identities: WorldCat Identities (id: ??, ns: 0) Zhovkva:
> Zhovkva (id: ??, ns: 0)
...