Учитывая набор из 20 миллиардов терминов, я хотел бы найти количество уникальных терминов и количество терминов, которые появляются только один раз. Применяя Heaps Law
, я могу получить
?(n) = ? × ?^?, assume ? = 0.25, ? = 0.5
➔ ?(?) = 0.25 × (20?)^0.5 ≅ 35M
Теперь я хотел бы использовать Zipf's law
, чтобы узнать количество терминов, появляющихся один раз. Как мне рассчитать это?