Как использовать закон Зипфа для расчета терминов, которые появляются только один раз? - PullRequest
0 голосов
/ 26 марта 2020

Учитывая набор из 20 миллиардов терминов, я хотел бы найти количество уникальных терминов и количество терминов, которые появляются только один раз. Применяя Heaps Law, я могу получить

 ?(n) = ? × ?^?, assume ? = 0.25, ? = 0.5
 ➔ ?(?) = 0.25 × (20?)^0.5 ≅ 35M

Теперь я хотел бы использовать Zipf's law, чтобы узнать количество терминов, появляющихся один раз. Как мне рассчитать это?

...