Использование Lucene для индексации Википедии - PullRequest
1 голос
/ 24 октября 2011

Можно ли использовать Lucene Benchmark для индексации дампа википедии?Я хочу, чтобы иметь возможность выполнять запросы фраз на последнем дампе страницы английской Википедии.Я пытаюсь найти примеры использования, но я не нашел ни одного.

Я скачал последнюю английскую версию дампа с именем: enwiki-latest-pages-article.xml.bz2

Затем я запустил команду в терминале:каталог с пометкой "enwiki"

Теперь есть ли что-то еще в тестах, которые мне нужно запустить, чтобы проиндексировать вики?README.enwiki не дает мне четкого набора инструкций, на самом деле я даже не уверен, должен ли я запускать класс ExtractWikipedia или нет.

Ответы [ 2 ]

1 голос
/ 24 октября 2011

просто запустить "муравей";Я опубликовал более подробный ответ в списке рассылки Lucene, но в этом суть.Файл build.xml содержит несколько целей для запуска тестов.

0 голосов
/ 05 декабря 2011

Фонд Викимедиа работает над новым проектом под названием DiffDb.Используя Hadoop, мы создаем разницу между двумя ревизиями, и все эти различия индексируются с помощью Lucene.Вы можете найти код на github:

Полученный индекс только для английской Википедии1,4 ТБ, но вы можете выполнять действительно классные запросы, например, кто добавил foo в апреле 2005 года, кто удалил более 10 КБ в байтах и ​​т. д. и т. д.

...