чувствительность к местности, искра хеширования мл - PullRequest
0 голосов
/ 09 мая 2020

Я использую искру хеширования чувствительности к местности ml 2.4, чтобы сопоставить похожие имена. Я создавал векторы с помощью HasingTF и IDF. Использование numHashTables = 5 для MinHashL SH, однако я получаю много ложных + значений и очень мало хороших совпадений.

Следует ли мне go с более высокими значениями numHashTables для улучшения совпадений? Наборы данных, которые я пытаюсь сравнить, и 7 миллионов и 12 миллионов записей.

...