Как получить связанные темы из настоящей статьи в Википедии? - PullRequest
1 голос
/ 18 марта 2012

Я пишу пользовательское приложение, которое принимает данные от пользователя как текущую открытую страницу википедии.Я написал фрагмент кода, который принимает это в качестве входных данных для моего модуля и генерирует список ключевых слов, связанных с этой конкретной статьей, используя webscraping и обработку на естественном языке.

Я хочу расширить функциональность приложения, предоставивв дополнение к ключевым словам, которые я определил, набор связанных тем , которые могут представлять интерес для пользователя.Есть ли какой-либо API, который предоставляет Википедия, который сделает свое дело.Если нет, может кто-нибудь указать мне, на что я должен смотреть (в случае, если я должен написать код с нуля).Также я буду признателен за любые указания по определению любого алгоритма, который научит машину распознавать тематические карты.Я не ищу какую-либо статью, а скорее представляю практическую реализацию чего-то базового

, чтобы подвести итог,

  1. Мне нужен способ найти темы, связанные с текущей статьейв википедии (категории тоже подойдут)
  2. Я также буду признателен за пример алгоритма обучения машины для определения тем, которые обычно связаны и кластеризованы.

пс.пожалуйста, будьте конкретны, потому что я исследовал ряд очевидных возможностей, спасибо, спасибо

Ответы [ 2 ]

0 голосов
/ 19 декабря 2014

«Смотрите также» - это раздел, часто присутствующий на страницах Википедии. Он структурирован, как в примере ниже, из [[Статья (публикации)]]:

==See also==
* [[Article directory]]
* [[Electronic article]]

Затем вы должны проанализировать вики-код (вы можете взять его с помощью дампов или через Mediawiki API, как указано в предыдущих ответах) и использовать упомянутые статьи.

Другой способ - использовать категории Wikipedia напрямую, для этого есть API .

0 голосов
/ 18 марта 2012

Вы можете очистить категории, если хотите. Если вы работаете с python, вы можете прочитать вики-текст непосредственно из их API и использовать mwlib для анализа статьи и поиска ссылок.

Более интересным, но сложным для реализации подходом будет создание кластеров связанных терминов, и, учитывая список терминов, извлеченных из статьи, найдите наиболее близкие к ним термины.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...