TL; DR В настоящее время я создаю кроссплатформенный мобильный агрегатор новостей, который будет идентифицировать новостные статьи от разных издателей, но примерно с одной и той же темой c, например, знаменитость скончалась.
Мне кажется, я нашел подходящий журнал, который поможет мне выполнить шаги «Кластеризация документов с алгоритмами группировки и объединения».
(https://www.aclweb.org/anthology/I05-1025.pdf)
Однако многие из шагов сбивают меня с толку, таких как:
1) Кластеризация документов
2) Алгоритмы группировки и объединения
3) Понимание уравнений, таких как приведенное ниже, которые я надо будет вычислить.
Любая помощь по этому вопросу или краткое описание шагов будет принята с благодарностью.
Спасибо за помощь.
Я также заинтересован в любых специалистах в этой области и хотел бы использовать ваши знания в качестве качественного доказательства для моего проекта. Если вы хотите, пожалуйста, DM, или оставьте комментарий. Еще раз спасибо!