Np, спасибо за разъяснения.что-то вроде кластеризации, вероятно, не очень хорошая идея, поскольку алгоритмы такого типа предназначены для определения категории для объекта, который еще не связан с категорией.В вашей задаче все объекты (футболистская статья) уже связаны с разными категориями.
Вам, вероятно, следует выполнить полный поиск по всем статьям и сохранить соответствующие категории для каждой статьи в хэш-таблице, чтобы затем можно было получить информацию об этой категории, когда вам нужно узнать это для новой статьи.
Является ли категория релевантной для статьи, мне кажется совершенно произвольной и кажется, что вы должны решить для себя (например, определить порог в 5 ссылок на категорию, прежде чем она будет определена как часть категории).).
Если вы получаете эти статьи из Википедии, вам, вероятно, придется довольно долго работать над всем деревом, но, на мой взгляд, кажется, что это ваш единственный выбор.
Выполните поиск с помощью DFS, и каждый раз, когда вы найдете совпадение с категорией арктики, сохраняйте статью в хеш-таблице (вам нужно иметь возможность сократить статью до уникального идентификатора).
Это, пожалуй, мой самый расплывчатый ответ, который я когда-либо писал здесь, и ваш вопрос может быть слишком широким ... если вам не помогли, пожалуйста, дайте мне знать, чтобы я мог рассмотреть его в порядкечтобы избежать путаницы с будущими читателями.