Следовательно, это не проблема классификации.Это без присмотра, пока у вас нет метки.
Что вы можете сделать, это взглянуть на K-Means (алгоритм машинного управления без присмотра), который позволяет вам кластеризовать ваши данные в предварительно определенное количество кластеров (здесь3):
https://scikit -learn.org / stable / modules / генерируется / sklearn.cluster.KMeans.html # sklearn.cluster.KMeans
Но выу вас не будет никаких мер, чтобы проверить «правду о земле»
Если вы действительно хотите пойти дальше, вы можете попробовать пометить эти статьи самостоятельно (скажем, с помощью компьютерных наук, электроники и электрики) и попробовать некоторые под надзоромалгоритмы (с scikit-learn ) / нейронная сеть (с тензор потока ).
Идея состоит в том, чтобы векторизовать ваши входные данные (вы можете взглянуть на TF-IDF), а затем попробуйте любую контролируемую модель.
Это называется NLP.У вас также есть библиотеки, которые могут помочь вам в этом.
NLTK & Spacy - хорошее начало:
https://www.nltk.org/
https://spacy.io/