Где взять предварительно помеченные новостные статьи для продолжения алгоритма кластеризации - PullRequest
0 голосов
/ 09 апреля 2019

Я собираюсь создать систему, которая может кластеризовать новостные данные онлайн на основе события, с которым они связаны.Для проверки правильности результата мне нужен большой набор новостей с пометкой на тему.И мне кажется почти невозможным маркировать их вручную.Так может кто-нибудь поделиться некоторыми советами, как я могу получить руку на этот тип набора данных?Большое спасибо за помощь.

1 Ответ

0 голосов
/ 09 апреля 2019

20 Новостные группы - это стандартный набор данных, который начинается с кластеризации новостей, классификации и т. Д. Вы можете использовать его для своих экспериментов.Из описания:

Набор данных 20 групп новостей представляет собой набор из примерно 20 000 документов групп новостей, равномерно распределенных (почти) по 20 различным группам новостей.Насколько мне известно, он был первоначально собран Кеном Лангом, вероятно, для его Newsweeder: Обучение фильтрованию бумаги netnews, хотя он явно не упоминает эту коллекцию.Коллекция из 20 групп новостей стала популярным набором данных для экспериментов в текстовых приложениях методов машинного обучения, таких как классификация текста и кластеризация текста.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...