Нужны данные тренировки для таких категорий, как Спорт, Развлечения, Здоровье и т. Д., А также для всех подкатегорий - PullRequest
0 голосов
/ 29 ноября 2011

Я экспериментирую с алгоритмами классификации в ML и ищу некоторый корпус для обучения моей модели, чтобы различать различные категории, такие как спорт, погода, технологии, футбол, крикет и т. Д.,

Мне нужны некоторые указатели нагде я могу найти некоторый набор данных с этими категориями,

Еще один вариант для меня - это сканировать Википедию, чтобы получить данные для 30+ категорий, но я хотел немного мозгового штурма и мнений, если есть лучший способ сделать этоthis.

Редактировать

Обучить модель с использованием подхода «набор слов» для этих категорий Тест - классифицировать новые / неизвестные веб-сайты по этим предварительно определенным категориям в зависимости от содержимого веб-страницы.

1 Ответ

4 голосов
/ 29 ноября 2011

Репозиторий машинного обучения UCI содержит доступный для поиска архив наборов данных для контролируемого обучения.

Вы можете получить более точные ответы, если предоставите более конкретную информацию о том, какие входные и выходные данные ваш идеальный набор данных будетhave.

Edit:

...