Я изучаю тему кластеризации, следуй за scikit-learn example :
Я не понимаю, в чем разница между категорией и ярлыком.
В этом случае набор данных дается из загрузки:
dataset = fetch_20newsgroups(subset='all', categories=categories,
shuffle=True, random_state=42)
, но я не понимаю, зачем писать эту категорию
categories = [
'alt.atheism',
'talk.religion.misc',
'comp.graphics',
'sci.space',
В примере этоупоминается как «взять из учебного набора», но где находится поезд?
labels = dataset.target
Я не понимаю, почему нам нужны категории и метки по отдельности.
Кстати, я нашел ресурс этого набора данных здесь и кажется, что этоделится на
- train.data
- train.label
- train.map
- test.data
- test.label
- test.map
так что я думаю, когда пишу
dataset.data
Это дает разреженную матрицу).
Так что мой вопрос,как выбрать категорию и ярлык?если у меня нет набора данных, как в этом примере, мне нужно выбрать произвольно?
Извините за мой вопрос, но я пытаюсь правильно понять этот пример.