Категория / метка в наборе данных fetch_20newsgroups sklearn - PullRequest
0 голосов
/ 28 декабря 2018

Я изучаю тему кластеризации, следуй за scikit-learn example :

Я не понимаю, в чем разница между категорией и ярлыком.

В этом случае набор данных дается из загрузки:

dataset = fetch_20newsgroups(subset='all', categories=categories,
                             shuffle=True, random_state=42) 

, но я не понимаю, зачем писать эту категорию

categories = [
'alt.atheism',
'talk.religion.misc',
'comp.graphics',
'sci.space',

В примере этоупоминается как «взять из учебного набора», но где находится поезд?

labels = dataset.target

Я не понимаю, почему нам нужны категории и метки по отдельности.

Кстати, я нашел ресурс этого набора данных здесь и кажется, что этоделится на

  • train.data
  • train.label
  • train.map
  • test.data
  • test.label
  • test.map

так что я думаю, когда пишу

dataset.data

Это дает разреженную матрицу).

Так что мой вопрос,как выбрать категорию и ярлык?если у меня нет набора данных, как в этом примере, мне нужно выбрать произвольно?

Извините за мой вопрос, но я пытаюсь правильно понять этот пример.

1 Ответ

0 голосов
/ 28 декабря 2018

Сначала указываются категории для фильтрации записей из исходного набора данных.допустим, мы получили 1200 статей, используя только фильтр.По умолчанию исходный набор данных имеет 20 категорий.Если мы не укажем категории, он будет тянуть все статьи всех категорий в набор данных.

'alt.atheism',
'talk.religion.misc',
'comp.graphics',
'sci.space',

, тогда как dataset.target используется для получения меток для каждой статьи из набора данных, который мы отфильтровали на предыдущем шаге.Ярлыки

labels = dataset.target

будут иметь размер 1200, и каждое значение представляет, к какой категории относится каждая статья.

Вы только можете выбрать категории.Метки уже присутствуют для каждой статьи, поэтому нам здесь не нужно играть какую-то роль.

dataset.target_names даст сопоставление между метками и категориями, а значение 0,1,2 в метках означает, какая категория.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...