как извлечь данные из страниц списка из википедии? - PullRequest
1 голос
/ 03 февраля 2011

что именно я хочу сделать:

input : wikipedia xml dump

output : список таких троек:

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/C_(programming_language)> .

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Java_(programming_language)> .

...

..

.

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/AdsML> .

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Agricultural_Ontology_Service> .

Мы уже установили и настроили структуру извлечения dbpedia, но я думаю, что будет сложно настроить среду для извлечения этих данных.Я был шокирован тем фактом, что в фреймворке извлечения для этого нет экстракторов!

1 Ответ

3 голосов
/ 05 февраля 2011

Все средства извлечения каркаса ищут определенные шаблоны в названии статьи или в теле статьи. Если вы сможете найти на страницах списка что-то, чего не существует ни в одной другой статье, он сможет создать одно ...

в противном случае вы можете использовать ссылки на страницы (ссылки со страницы на страницу) и фильтровать нужные вам статьи. Это, вероятно, даст вам то, что вы хотите (вроде)

...