Я пытаюсь написать управляемый данными компонент коррекции орфографии, который использует алгоритм редактирования расстояния, чтобы получить начальный список предложений (альтернатив), соответствующих каждому токену.
Я могу придумать два способа сделать это:
1. Экспортируйте инвертированный индекс, который Solr (6.5) создает из канала, который я могу использовать позже в python, чтобы получить список начальных предложений (альтернативных) для моей коррекции заклинаний.
2. Я могу подключиться к Solr из моей программы на python, чтобы получить список альтернатив / предложений, соответствующих каждому токену.
Теперь вопрос, как я могу это сделать?