Да, Lucene должен справиться с этим, согласно следующей статье:
http://www.lucidimagination.com/content/scaling-lucene-and-solr
Вот цитата:
В зависимости от множества факторов на одной машине можно легко разместить индекс Lucene / Solr, содержащий от 5 до 80 с лишним миллионов документов, в то время как распределенное решение может обеспечить подсекундное время ответа на поиск по миллиардам документов.
В статье подробно рассматривается масштабирование до нескольких серверов. Таким образом, вы можете начать с малого и при необходимости масштабировать.
Отличным ресурсом о производительности Lucene является блог Майка МакКэндлесса, который активно участвует в разработке Lucene: http://blog.mikemccandless.com/
Он часто использует контент Википедии (25 ГБ) в качестве тестового ввода для Lucene.
Также может быть интересно, что поиск в Twitter в реальном времени теперь реализован с помощью Lucene (см. http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html).
Однако мне интересно, правильны ли предоставленные вами числа: 500 миллионов документов x 50 КБ = ~ 23 ТБ. Действительно ли у вас так много данных?