Как проиндексировать почти 3 миллиона XML-файлов с помощью Lucene Solr - PullRequest
0 голосов
/ 05 августа 2011

Я пытаюсь проиндексировать почти 3 миллиона XML-файлов с помощью lucene solr.Когда я пытаюсь использовать командную строку "java -jar post.jar * .xml".Там нет ответа от машины.Как я могу сделать индексацию?Большое спасибо.

Ответы [ 3 ]

2 голосов
/ 05 августа 2011

Разбейте его на более мелкие партии.Например, предполагая, что ваши XML-файлы называются от aaa.xml до zzz.xml и достаточно распространены, сначала отправьте «java -jar a * .xml», затем «java -jar b * .xml» и т. Д.

1 голос
/ 05 августа 2011

Проект Open library некоторое время назад загрузил большое количество книг в solr для целей поиска. Об этом есть сообщение в блоге здесь , которое может быть полезно для вас.

0 голосов
/ 05 августа 2011

Вы пытались загрузить 3000 документов?Вы были успешны, и сколько времени это заняло?Вы не сказали, насколько большие файлы, поэтому невозможно дать оценку, но я видел, как загрузка базы данных (не lucene, а аналогичная) выполнялась со скоростью 100 000 документов в час.

...