Имеет ли смысл использовать детерминированный ациклический конечный автомат (DAFSA или DAWG) для хранения отпечатков пальцев документа? - PullRequest
0 голосов
/ 10 марта 2019

Допустим, у вас есть огромная коллекция документов (например, весь Интернет), и вы не хотите обрабатывать какой-либо документ дважды.

Я полагаю, что наиболее распространенный способ управления такой ситуацией - хранить контрольные суммы документов, которые вы уже обработали, а затем для каждого нового документа проверять наличие его отпечатка пальца в хеш-таблице или что-то, чтобы узнать, является ли это известный документ или нет.

Проблема в том, что когда корпус растет, даже отпечатки пальцев занимают слишком много места, поэтому я подумал об использовании детерминированного ациклического автомата конечного состояния (DAFSA) для хранения отпечатков пальцев, но я совсем не уверен, если он было бы эффективно, потому что алгоритмы хеширования обычно хорошо сбалансированы, я имею в виду, если я получаю отпечаток N байт, каждый байт имеет одинаковую вероятность.

Может ли DAFSA действительно уменьшить пространство, необходимое для хранения отпечатков пальцев в этих условиях? А если нет, то каковы современные решения для решения такого рода проблем?

...