Вопрос о структуре НЛП (лучший способ извлечения функций) - PullRequest
0 голосов
/ 02 июля 2019

Я строю трубопровод НЛП и пытаюсь обдумать оптимальную структуру. На данный момент я понимаю следующее:

  • Step1 - Предварительная обработка текста [a. Нижний регистр, б. Удаление стоп-слов, c. stemming, d. лемматизация,]
  • Шаг 2 - Извлечение функции
  • Шаг 3 - Классификация - использование различных типов классификаторов (linearSvC и т. Д.)

Из того, что я читал в Интернете, есть несколько подходов к извлечению функций, но нет твердого примера / ответа.

  • а. Есть ли надежная стратегия для извлечения функций? Я читал в Интернете, что вы можете сделать [а. Векторизация с использованием ScikitLearn b. TF-IDF] но также я читал, что вы можете использовать Part of Speech или word2Vec или другое встраивание и распознавание сущностей Name.
  • б. Каков оптимальный процесс / структура их использования?
  • с. Что касается предварительной обработки текста, я выполняю обработку текстового столбца в df, и последняя измененная версия - это то, что я использую в качестве входных данных в моем классификаторе. Если вы выполняете извлечение объектов, делаете ли вы это в том же столбце или создаете новый, и отправляете в классификатор только объекты из этого столбца?

Большое спасибо заранее

1 Ответ

1 голос
/ 02 июля 2019

Конвейер предварительной обработки зависит главным образом от вашей проблемы, которую вы пытаетесь решить.Использование TF-IDF, встраивание слов и т. Д. Имеет свои ограничения и преимущества.

Вам необходимо понять проблему, а также данные, связанные с ней.Чтобы наилучшим образом использовать данные, нам нужно реализовать правильный конвейер.

Специально для текстовых проблем вы найдете вложения слов очень полезными.TF-IDF полезен, когда нужно решить проблему, подчеркнув слова с меньшей частотой.Вложения слова, с другой стороны, преобразуют текст в N-мерный вектор, который может показывать сходство с каким-либо другим вектором.Это может принести ощущение связи в ваших данных, и модель сможет изучить наилучшие возможные функции.

В простых случаях мы можем использовать пакет слов для обозначения текстов.

ИтакВам нужно найти лучший подход к вашей проблеме.Если вы решаете проблему, которая очень похожа на известные проблемы НЛП, такие как классификация обзора IMDB, анализ настроений в данных Twitter, то вы можете найти несколько подходов в Интернете.

...