У меня есть набор из примерно 7 миллионов фраз, которые нужно сопоставить с примерно 300 миллионами запросов.
Запросы могут быть подстрока или содержать сами фразы.По сути, я хочу измерить «сходство» между двумя фразами [не обязательно расстояние редактирования]
Может кто-нибудь дать несколько указаний на эффективные алгоритмы, чтобы сделать это.Я бы предпочел распределенные алгоритмы, так как я собираюсь сделать это на Hadoop посредством потоковой передачи с использованием python.