Python NLP, нейронная сеть, кластеризация текста - PullRequest
0 голосов
/ 23 сентября 2018

Редактировать: Я спрашиваю об этом, потому что я провел более 40 часов, экспериментируя с этими пакетами, и чувствую, что я ничего не получил.

Я довольно новичок в Python.Я успешно выполнил модель RandomForestClassifier в своей организации, и она находится в производстве, но нейронные сети находятся за пределами моего понимания.

Я работаю над проблемой классификации текста в Python.У меня было 243 образца (строки), которые были взяты из 25 вакансий.У меня есть один столбец, который является строковым предложением, и один столбец, в котором публикуется задание, из которого оно получено.

Я готовлюсь к продвижению по службе и подумал, что это будет отличная возможность узнать о нейронных сетях.(Я не собираюсь выступать в роли специалиста по данным, это меня просто очаровывает.) Каждый образец - это одна «служебная обязанность» после публикации вакансии, а каждый «документ» - это публикация работы.У одной публикации работы может быть несколько одинаковых обязанностей, каждая публикация работы должна иметь 2-3 одинаковых (абстрактных) обязанности, и, в конечном счете, я предполагаю, что из моих 25 объявлений о работе будет 15-20 кластеров "обязанностей".

По сути, мой желаемый результат - классифицировать каждую строку (независимо от того, из какой публикации она была отправлена; я не думаю, что мой столбец документа релевантен) по n кластерам.Я не ожидаю ярлыки для моих кластеров.

Я очистил свои 243 образца;удаляя пунктуацию и стоп-слова, и помещая их в информационный кадр.

Пакеты, с которыми я экспериментировал до сих пор, - это Keras, doc2vec, word2vec, nltk и Soundex

  1. Есть ли способ кластеризации моих образцов (без контроля) без данных обучения?

  2. Нужно ли загружать корпус для обучения?Есть ли у корпуса по умолчанию метки классификации?

  3. Что является самым простым (желающим пожертвовать точностью), чтобы получить n кластеров из 243 выборок (я рассмотрю содержимое каждого кластера и определю метку для последующей обработки кластера)

Просто какое-то смутное руководство действительно помогло бы мне.

1 Ответ

0 голосов
/ 23 сентября 2018

Как человек, который делает это для жизни,

40 часов экспериментируя с этими пакетами

может быть недостаточно.

Вещи, которые вам нужнызнать:

  • Обработка естественного языка (NLP)
  • Машинное обучение

Неуместность, выброс пакетов на ваши данные не решит вашу проблему.

Теперь, чтобы ответить на ваши вопросы:

1. Есть ли способ кластеризации моих выборок (без контроля) без данных обучения?

Да.

  1. Получить функции из вашего текста.Вы должны знать, какие функции важны.
  2. Запустите один из алгоритмов здесь http://scikit -learn.org / stable / modules / clustering.html # clustering

2. Нужно ли загружать корпус для тренировки?Есть ли у корпуса по умолчанию метки классификации?

  • Что вы хотите тренировать?
  • «Корпус» означает набор текстов. Любой сборник текстов может быть корпусом.Корпус не обязательно имеет классификационные метки.

3. Что является самым простым (желающим пожертвовать точностью), чтобы получить n кластеров из 243 выборок (я рассмотрю содержимое каждого кластера и определю метку для последующей обработки кластера)

См. Вопрос 1.

Исходя из ваших вопросов, я полагаю, вы новичок в области НЛП.Я бы посоветовал вам поговорить с кем-то лично, кто знает НЛП.

...