Я экспериментирую с алгоритмами классификации в ML и ищу некоторый корпус для обучения моей модели, чтобы различать различные категории, такие как спорт, погода, технологии, футбол, крикет и т. Д.,
Мне нужны некоторые указатели нагде я могу найти некоторый набор данных с этими категориями,
Еще один вариант для меня - это сканировать Википедию, чтобы получить данные для 30+ категорий, но я хотел немного мозгового штурма и мнений, если есть лучший способ сделать этоthis.
Редактировать
Обучить модель с использованием подхода «набор слов» для этих категорий Тест - классифицировать новые / неизвестные веб-сайты по этим предварительно определенным категориям в зависимости от содержимого веб-страницы.