Проблема в том, что у меня есть коллекция текстовых документов, я хочу подобрать наиболее похожий на входной.Входной текстовый документ может быть точно совпадает или частично изменен.Алгоритм должен быть очень быстрым.
В настоящее время я нашел simhash, чтобы взять отпечаток пальца из документов коллекции.Есть ли другой алгоритм, чтобы сделать то же самое?