Лично я бы проиндексировал документы как обычно и позже выяснил номер метаданных / строки.
Нет вопроса о том, может ли Lucene справиться с таким количеством документов, однако это может несколько ухудшить результаты поиска. Поскольку вы можете выполнять поиск, когда вы ищете несколько терминов в непосредственной близости друг от друга, однако это, очевидно, не будет работать, если термины разделены на несколько документов (строк).