Извлекайте данные из Википедии как можно чище, используя Rails 3 - PullRequest
1 голос
/ 23 февраля 2011

Я занимаюсь разработкой приложения на Rails 3, из которого я хочу иметь возможность извлекать данные (заголовок и краткий текст) по любой теме из Википедии.

Мне нужно, чтобы информация была очень "чистой" в другихслова, свободные от HTML, Wikitags и нерелевантные данные, такие как список ссылок и тому подобное.

Возможно ли получить только заголовок и текст по теме?

Я использую камень, чтобы получитьданные, но это очень некрасиво.

{{for|the television series|Solsidan (TV series)}} {{Infobox settlement |official_name = Solsidan |image_skyline = |image_caption = |pushpin_map = Sweden |pushpin_label_position = |coordinates_region = SE |subdivision_type = [[Country]] |subdivision_name = [[Sweden]] |subdivision_type3 = [[Municipalities of Sweden|Municipality]] |subdivision_name3 = [[Nacka Municipality]] |subdivision_type2 = [[Counties of Sweden|County]] |subdivision_name2 = [[Stockholm County]] |subdivision_type1 = [[Provinces of Sweden|Province]] |subdivision_name1 = [[Uppland]] |area_footnotes = {{cite web | title=Tätorternas landareal, folkmängd och invånare per km2 2000 och 2005 | publisher=[[Statistics Sweden]] | url=http://www.scb.se/statistik/MI/MI0810/2005A01B/T%c3%a4torternami0810tab1.xls | format=xls | language=Swedish | accessdate=2009-05-08}} |area_total_km2 = 0.23 |population_as_of = 2005-12-31 |population_footnotes = |population_total = 209 |population_density_km2 = 895 |timezone = [[Central European Time|CET]] |utc_offset = +1 |timezone_DST = [[Central European Summer Time|CEST]] |utc_offset_DST = +2 |coordinates_display = display=inline,title |latd=59 |latm=17 |lats= |latNS=N |longd=17 |longm=51 |longs= |longEW=E |website = }} '''Solsidan''' is a [[Urban areas in Sweden|locality]] situated in [[Nacka Municipality]], [[Stockholm County]], [[Sweden]] == References == {{Reflist}} {{Stockholm-geo-stub}} {{Localities in Nacka Municipality}} [[Category:Populated places in Stockholm County]] [[no:Solsidan]] [[sv:Solsidan, Nacka kommun]]

1 Ответ

3 голосов
/ 23 февраля 2011

Википедия предоставляет обычные изображения на Википедия: загрузка базы данных как в виде дампов MySQL в схеме, используемой mediawiki, так и в формате обмена XML. Вы можете загрузить их на свой собственный сервер (~ 6 ГБ для загрузки, ~ 30 ГБ без сжатия для текущего текста всех статей английской википедии) и выполнять запрос / обработку по своему усмотрению. Контент еще не обработан в HTML, поэтому вы можете обрабатывать вики-разметку и генерировать все, что захотите. На странице есть много ссылок на библиотеки на разных языках, которые обрабатывают эти дампы, хотя я не вижу Ruby, поэтому вам, возможно, придется сделать это самостоятельно.

Существуют также различные подмножества. abstract.xml содержит заголовки и тезисы, которые звучат так, как вы хотите, и составляют всего 3 ГБ.

См. Также Википедия: Mirrors_and_forks для обсуждения некоторых требований лицензирования, связанных с повторным использованием содержимого Википедии.

...