коммиттер Lucene Майк Маккэндлесс регулярно запускает тесты для отслеживания улучшений производительности и регрессий.Они сделаны с помощью экспорта из Википедии, который может быть немного меньше того, что вы ищете.
Но производительность зависит не столько от размера ввода, сколько от количества документов и уникальныхтермины.Если у вас уже есть данные, аналогичные тем, которые вам нужно индексировать, я бы порекомендовал вам проверить инструмент тестирования Майка , адаптировать его к вашим потребностям и запустить его с вашим собственным набором данных и оборудованием, чтобы попытаться найтикакие показатели производительности вы можете ожидать.