Инструмент для разбора текста на возможные ссылки в Википедии - PullRequest
1 голос
/ 12 марта 2009

Существует ли инструмент, который может анализировать текст и выводить этот текст с гиперссылкой на записи в Википедии на интересующие слова?

Например, я хотел бы инструмент, который может превратить что-то вроде:

Самый популярный алгоритм поиска на отсортированный список - это двоичный поиск.

В

Самый популярный алгоритм поиска на отсортированный список - это двоичный поиск .

Было бы замечательно, если бы в Википедии был API, который бы делал это, поскольку они были бы лучше всего оснащены для определения, что такое "слова интересов".

В моем примере я просто связал все комбинации, которые связаны непосредственно с записью, кроме The и Most.

Ответы [ 3 ]

1 голос
/ 25 мая 2009

Сильвиу Кучерзан из Microsoft Research решил эту проблему. Ну, не проблема вставки ссылок, а общая проблема определения того, какие объекты упоминаются в некотором фрагменте текста. К счастью для вас, он использовал статьи Википедии в качестве набора сущностей. Его статья «Устранение неоднозначности крупномасштабных именованных объектов на основе данных Википедии» доступна на его веб-сайте . Прямая ссылка: pdf .

1 голос
/ 27 мая 2009

Существует инструмент, который делает именно то, что вы просите. http: //wikify.appointment.at/ Это не идеально, но работает.

1 голос
/ 14 марта 2009

Здесь вам нужно решить две отдельные задачи:

  1. Решение, какие слова должны быть связаны
  2. Определение наличия подходящей записи для связи этих слов с

Теперь (2) проще, хотя и несколько проблематично. В Википедии, похоже, есть API , который позволяет эффективно собирать данные, а также позволяет "очистку экрана". Но есть проблема с устранением неоднозначности - иногда вы можете нажать не ту запись, которую хотели. Например, python ссылается на страницу устранения неоднозначности, так как это может быть язык программирования, змея и пара других вещей.

(1) Хотя намного сложнее. Вы можете воспользоваться «простым подходом» и попытаться найти ссылки для всех нетривиальных существительных (или даже пар существительное / прилагательное). Нетривиально здесь означает опускание таких слов, как «злодей, слово, компьютер» и т. Д. Но это приведет к множеству ссылок, которые не удобно читать. Вам решать, что интересного в тексте, и это во многом зависит от самого текста. В статье для профессиональных программистов вы действительно хотите каждый раз ссылаться на «алгоритм поиска»? Но для начинающих, возможно, вы делаете.

В заключение, я сильно сомневаюсь, что есть один универсальный инструмент, который поможет вам. Но у вас наверняка есть все варианты под рукой, и что-то специфическое для потребности может быть закодировано без особых усилий.

...