Где я могу получить Википедию XML корпус - PullRequest
1 голос
/ 08 апреля 2011

Я не знаю, можно ли здесь об этом спросить, но я так усердно искал это и снова и снова приходил в тупик.Я работаю над проектом по поиску информации.Я запрограммировал свой поисковик, но не могу его протестировать, потому что мне нужен этот xml корпус из Википедии.Это я нашел http://www -connex.lip6.fr / ~ denoyer / wikipediaXML / , но оказывается бесполезным.Пожалуйста, дайте мне знать, если кто-нибудь знает способ достать мне этот корпус

1 Ответ

3 голосов
/ 09 апреля 2011

Похоже, что предоставленная вами страница представляет XML-корпус Википедии, использованный на семинаре INEX в 2007 году.Я нашел этот сайт , на котором хранится набор данных Википедии, использовавшийся в 2009-2010 гг. (Я думаю, что и кластеризация), в INEX.Я думаю, что вы также можете использовать его.

На всякий случай вы можете использовать официальный дамп XML Викимедиа: Английские дампы Википедии .Больше информации и другие языки: База данных Википедии Скачать

...