Я не очень знаком с Java, но могу сказать, что Python очень хорошо подходит для этой работы.
Существует очень быстрый модуль синтаксического анализа XML, называемый BeautifulStoneSoup, который вы можете использовать. Это часть библиотеки BeautifulSoup. И если вам нужен только простой индексатор, в Python встроен движок sqlite, который также легок и очень быстр.