У меня есть несколько (более 1 миллиона) документов, сообщений электронной почты и т. Д., Которые необходимо проиндексировать и выполнить поиск. Каждый документ потенциально имеет свою кодировку.
Какие продукты (или конфигурации для продуктов) мне необходимо изучить и понять, чтобы сделать это правильно?
Мое первое предположение основано на Lucene, но это то, чему я просто учусь на ходу. Мое главное желание - запустить процесс кодирования, требующий много времени, как можно скорее, чтобы мы могли одновременно создать интерфейс поиска. Это может потребовать некоторой нормализации двухбайтовых символов.
Любая помощь приветствуется.