Rails + MediaWiki API для извлечения данных из Википедии - PullRequest
5 голосов
/ 20 октября 2011

Я пытаюсь использовать Rails для извлечения данных из Википедии на основе поискового запроса.

Например,

1) если у меня есть строка «Американский идол», я хочу передать ее в Википедию и получить список статей, которые касаются этого. Моя цель - взять первые 3 гиперссылки и отобразить их на сайте.

2) еще один шаг потребует от меня извлечения небольших фрагментов данных из Википедии - скажем, инфобокса или первых нескольких слов статьи в Википедии.

Любые советы?

Спасибо!

Ответы [ 3 ]

5 голосов
/ 27 октября 2011

Вам не нужно прибегать к очистке экрана, MediaWiki имеет очень всеобъемлющий API именно для такого рода вещей.См. https://github.com/jpatokal/mediawiki-gateway для удобной оболочки Ruby вокруг него.

В качестве альтернативы, если вас интересуют только данные, такие как информационные блоки, см. DBpedia для версии базы данных Википедии.

1 голос
/ 22 мая 2014

Есть еще один драгоценный камень, который вы можете использовать: https://github.com/kenpratt/wikipedia-client

Этот драгоценный камень, кажется, получает только первый результат вашего поиска, но вы можете обратиться к документации, чтобы быть уверенным.

Что касается содержимого, то после того, как вы получите страницу, гем позволяет вам получить доступ к разному содержанию статьи, ссылкам, изображениям и т.

0 голосов
/ 20 октября 2011

Используйте механизацию и нокогири, чтобы сделать это. Это отличный шпаргалка для этого:

http://www.e -tobi.net / блог / файлы / рубин-механизировать-чит-sheet.pdf

Mechanize - это набор инструментов для имитации вызовов веб-сайтов, а nokogiri - это анализатор html / xml. Это должно быть просто, чтобы понять это.

...