Я думаю, что 100 000 - это не так много, что поиск будет неэффективным.Конечно, это зависит ... Было бы хорошо, если бы вы проверяли, существует ли слово в массиве - это алгоритм линейной сложности.Вы можете упорядочить таблицу, чтобы использовать алгоритм поиска по быстрой сортировке и сделать его более эффективным.
С другой стороны - если вы хотите найти, 5 наиболее вероятных слов (используя метод N-граммы или что-то)следует рассмотреть возможность использования Lucene или другой текстовой базы данных.