Является ли HashingTF в Spark детерминированным? - PullRequest
0 голосов
/ 26 октября 2018

Я хочу использовать HashingTF для подсчета некоторых объектов в большом наборе данных, но позже мне понадобятся те же подсчеты для другого набора данных.Нужно ли сохранять модель HashingTF из первого запуска, чтобы гарантировать, что объекты отображаются на одно и то же значение хеш-функции, или это произойдет в любом случае, если я просто использую новый экземпляр HashingTF (при условии, что я всегда использую одно и то же значение дляnumFeatures)

...