Question

Редактировать: Я спрашиваю об этом, потому что я провел более 40 часов, экспериментируя с этими пакетами, и чувствую, что я ничего не получил.

Я довольно новичок в Python.Я успешно выполнил модель RandomForestClassifier в своей организации, и она находится в производстве, но нейронные сети находятся за пределами моего понимания.

Я работаю над проблемой классификации текста в Python.У меня было 243 образца (строки), которые были взяты из 25 вакансий.У меня есть один столбец, который является строковым предложением, и один столбец, в котором публикуется задание, из которого оно получено.

Я готовлюсь к продвижению по службе и подумал, что это будет отличная возможность узнать о нейронных сетях.(Я не собираюсь выступать в роли специалиста по данным, это меня просто очаровывает.) Каждый образец - это одна «служебная обязанность» после публикации вакансии, а каждый «документ» - это публикация работы.У одной публикации работы может быть несколько одинаковых обязанностей, каждая публикация работы должна иметь 2-3 одинаковых (абстрактных) обязанности, и, в конечном счете, я предполагаю, что из моих 25 объявлений о работе будет 15-20 кластеров "обязанностей".

По сути, мой желаемый результат - классифицировать каждую строку (независимо от того, из какой публикации она была отправлена; я не думаю, что мой столбец документа релевантен) по n кластерам.Я не ожидаю ярлыки для моих кластеров.

Я очистил свои 243 образца;удаляя пунктуацию и стоп-слова, и помещая их в информационный кадр.

Пакеты, с которыми я экспериментировал до сих пор, - это Keras, doc2vec, word2vec, nltk и Soundex

Есть ли способ кластеризации моих образцов (без контроля) без данных обучения?
Нужно ли загружать корпус для обучения?Есть ли у корпуса по умолчанию метки классификации?
Что является самым простым (желающим пожертвовать точностью), чтобы получить n кластеров из 243 выборок (я рассмотрю содержимое каждого кластера и определю метку для последующей обработки кластера)

Просто какое-то смутное руководство действительно помогло бы мне.

pajamas · Answer 1 · 23 сентября 2018

Как человек, который делает это для жизни,

40 часов экспериментируя с этими пакетами

может быть недостаточно.

Вещи, которые вам нужнызнать:

Обработка естественного языка (NLP)
Машинное обучение

Неуместность, выброс пакетов на ваши данные не решит вашу проблему.

Теперь, чтобы ответить на ваши вопросы:

1. Есть ли способ кластеризации моих выборок (без контроля) без данных обучения?

Да.

Получить функции из вашего текста.Вы должны знать, какие функции важны.
Запустите один из алгоритмов здесь http://scikit -learn.org / stable / modules / clustering.html # clustering

2. Нужно ли загружать корпус для тренировки?Есть ли у корпуса по умолчанию метки классификации?

Что вы хотите тренировать?
«Корпус» означает набор текстов. Любой сборник текстов может быть корпусом.Корпус не обязательно имеет классификационные метки.

3. Что является самым простым (желающим пожертвовать точностью), чтобы получить n кластеров из 243 выборок (я рассмотрю содержимое каждого кластера и определю метку для последующей обработки кластера)

См. Вопрос 1.

Исходя из ваших вопросов, я полагаю, вы новичок в области НЛП.Я бы посоветовал вам поговорить с кем-то лично, кто знает НЛП.

Python NLP, нейронная сеть, кластеризация текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

1. Есть ли способ кластеризации моих выборок (без контроля) без данных обучения?

2. Нужно ли загружать корпус для тренировки?Есть ли у корпуса по умолчанию метки классификации?

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python NLP, нейронная сеть, кластеризация текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

1. Есть ли способ кластеризации моих выборок (без контроля) без данных обучения?

2. Нужно ли загружать корпус для тренировки?Есть ли у корпуса по умолчанию метки классификации?

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы