То, что вы хотите реализовать, это не корректор орфографии, а нечеткий поиск. Эссе Питера Норвига является хорошей отправной точкой для построения нечеткого поиска по кандидатам, проверенным по словарю.
В качестве альтернативы взгляните на BK-Trees.
Индекс n-граммы (используемый Lucene) дает лучшие результаты для более длинных слов. Подход для подготовки кандидатов до заданного расстояния редактирования, вероятно, будет работать достаточно хорошо для слов, найденных в обычном тексте, но не будет достаточно хорош для имен, адресов и научных текстов. Это увеличит размер индекса.
Если у вас есть проиндексированные тексты, у вас есть текстовый корпус (ваш словарь). В любом случае можно найти только то, что находится в ваших данных. Вам не нужно использовать внешний словарь.
Хороший ресурс - Введение в поиск информации - словари и толерантный поиск . Существует краткое описание контекстной коррекции правописания.