Любопытно, есть ли у кого-нибудь понимание того, какой алгоритм используются в новостях Google для группировки похожих историй? к-средства? или что-то нестандартное?
Я думаю, это довольно сложно выяснить; но пока я нашел этот хороший технический документ о возможных алгоритмах для предложений по персонализации Новостей Google. Посмотрите сами:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.80.4329&rep=rep1&type=pdf
Здесь рассматриваются три алгоритма: (1) MinHash кластеризация (2) Вероятностная скрытая семантическая индексация (3) Covisitation
и некоторые комбинации.
Надеюсь, эта информация была полезна!
Когда Google запускал Новости Google, они помещали небольшой раздел об алгоритмах, которые они использовали для группировки на странице «О новостях Google», там упоминалось «Продвинутая Байесовская сеть "и некоторые другие алгоритмы (имена других алгоритмов не упоминались!).Этот абзац теперь отсутствует на той же странице.