MutiLabel классификация - PullRequest
0 голосов
/ 07 декабря 2018

У меня есть около 1000 статей, связанных с наукой и техникой.Мне нужно подготовить классификатор, который будет предсказывать, скажем, 3 (информатика, электроника, электротехника) оценки достоверности для каждой статьи.Каждая оценка представляет, сколько статья принадлежит каждому полю.Показатель достоверности будет иметь значение от нуля до единицы.

Но у набора данных нет метки обучения.

Как мне продолжить отсюда?Какие данные мне нужны?Как мне тренировать такую ​​модель?

Ответы [ 2 ]

0 голосов
/ 07 декабря 2018

Не совсем ясно, какова ваша основная идея, но статьи, как правило, имеют теги или категории, и вы можете использовать их для классификационных меток.

Люди довольно хорошо помечают статьи.

0 голосов
/ 07 декабря 2018

Следовательно, это не проблема классификации.Это без присмотра, пока у вас нет метки.

Что вы можете сделать, это взглянуть на K-Means (алгоритм машинного управления без присмотра), который позволяет вам кластеризовать ваши данные в предварительно определенное количество кластеров (здесь3):

https://scikit -learn.org / stable / modules / генерируется / sklearn.cluster.KMeans.html # sklearn.cluster.KMeans

Но выу вас не будет никаких мер, чтобы проверить «правду о земле»

Если вы действительно хотите пойти дальше, вы можете попробовать пометить эти статьи самостоятельно (скажем, с помощью компьютерных наук, электроники и электрики) и попробовать некоторые под надзоромалгоритмы (с scikit-learn ) / нейронная сеть (с тензор потока ).

Идея состоит в том, чтобы векторизовать ваши входные данные (вы можете взглянуть на TF-IDF), а затем попробуйте любую контролируемую модель.

Это называется NLP.У вас также есть библиотеки, которые могут помочь вам в этом.

NLTK & Spacy - хорошее начало:

https://www.nltk.org/

https://spacy.io/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...