Как пропущенные значения работают в классе связывания записей? - PullRequest
0 голосов
/ 19 июня 2019

Когда я использую параметр отсутствующих значений с методом qgram и levenshtein, он работает, но не с lcs и jarowinkler.Любые идеи, почему это происходит?

См. Код

compare_cl_1.string('N_name','N_name', label='nombre levenshtein', method='levenshtein', missing_value=0.23) # 5667 valores unicos, 6733 numero total
compare_cl_1.string('N_name', 'N_name', method='jarowinkler', missing_value=0.56, label='nombre jarowinkler')
compare_cl_1.string('N_name', 'N_name', method='qgram', missing_value=0.13, label='nombre qgram')
compare_cl_1.string('N_name','N_name', method='lcs', missing_value=0.23, label='nombre lcs')
compare_cl_1.exact('N_address', 'N_address', label='direccion exacta') # 15680 valores unicos, 538745 numero total
compare_cl_1.string('N_address','N_address', missing_value=0.3, label='direccion levenshtein') # 14756 valores unicos, 476837 total parece que hay muchisimas repeticiones
compare_cl_1.string('N_address','N_address', method='jarowinkler', missing_value=0.61, label='direccion jarowinkler')
compare_cl_1.string('N_address', 'N_address', method='qgram',missing_value=0.2, label='direccion qgram')
compare_cl_1.string('N_address', 'N_address', method='lcs', missing_value=0.32, label='direccion lcs')
candidate_links = indexer.index(dfg, dfm)[:10000]
features = compare_cl.compute(candidate_links, dfg, dfm)

Это то, что я получаю

Вывод для столбцов Левенштейна и Qgram Я получаю наборзначение, но я получаю 0.0 для остальных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...