Question

Я изучаю тему кластеризации, следуй за scikit-learn example :

Я не понимаю, в чем разница между категорией и ярлыком.

В этом случае набор данных дается из загрузки:

dataset = fetch_20newsgroups(subset='all', categories=categories,
                             shuffle=True, random_state=42)

, но я не понимаю, зачем писать эту категорию

categories = [
'alt.atheism',
'talk.religion.misc',
'comp.graphics',
'sci.space',

В примере этоупоминается как «взять из учебного набора», но где находится поезд?

labels = dataset.target

Я не понимаю, почему нам нужны категории и метки по отдельности.

Кстати, я нашел ресурс этого набора данных здесь и кажется, что этоделится на

train.data
train.label
train.map
test.data
test.label
test.map

так что я думаю, когда пишу

dataset.data

Это дает разреженную матрицу).

Так что мой вопрос,как выбрать категорию и ярлык?если у меня нет набора данных, как в этом примере, мне нужно выбрать произвольно?

Извините за мой вопрос, но я пытаюсь правильно понять этот пример.

ai_learning · Answer 1 · 28 декабря 2018

Сначала указываются категории для фильтрации записей из исходного набора данных.допустим, мы получили 1200 статей, используя только фильтр.По умолчанию исходный набор данных имеет 20 категорий.Если мы не укажем категории, он будет тянуть все статьи всех категорий в набор данных.

'alt.atheism',
'talk.religion.misc',
'comp.graphics',
'sci.space',

, тогда как dataset.target используется для получения меток для каждой статьи из набора данных, который мы отфильтровали на предыдущем шаге.Ярлыки

labels = dataset.target

будут иметь размер 1200, и каждое значение представляет, к какой категории относится каждая статья.

Вы только можете выбрать категории.Метки уже присутствуют для каждой статьи, поэтому нам здесь не нужно играть какую-то роль.

dataset.target_names даст сопоставление между метками и категориями, а значение 0,1,2 в метках означает, какая категория.

Категория / метка в наборе данных fetch_20newsgroups sklearn

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Категория / метка в наборе данных fetch_20newsgroups sklearn

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы