Как проводить обучение с использованием Gensim / Word2Vec / Doc2Ve c с большим корпусом текстовых документов? - PullRequest
0 голосов
/ 24 января 2020

У меня есть набор текстовых документов (2000+) с метками (Понравилось / Не понравилось). Каждый документ состоит из 200+ слов. Я пытаюсь провести контролируемое обучение с этими документами. Мой подход будет следующим:

  1. Векторизация каждого документа в корпусе. Скажем, у нас есть 2347 документов.
  2. У меня может быть 2347 строк с метками, а именно. Как 1 и Не как 0.
  3. Использование любого поезда модели под наблюдением классификации ML над набором данных с 2347 строками.

Как векторизовать и создать такой набор данных?

1 Ответ

3 голосов
/ 24 января 2020

Одной из вещей, которую вы можете попробовать, является использование Doc2Ve c. Это позволит вам сопоставить каждый документ с вектором измерения N. Затем вы можете использовать любой контролируемый алгоритм обучения для обучения этим N особенностям.

Есть другие альтернативы doc2ve c, упомянутые здесь . Попробуйте Среднее для векторов Word2Ve c с подходом TF-IDF .

Кроме того, убедитесь, что вы применили соответствующую очистку текста перед применением doc2ve c или word2ve c. Шаги, такие как нормализация регистра, удаление стоп-слов, удаление пунктуации и т. Д. c. Это действительно зависит от вашего набора данных. Узнайте больше здесь

Я бы также предложил разработать некоторые функции из ваших данных, если вы хотите прогнозировать, нравится или не нравится. Это зависит от ваших данных и проблемы, но некоторые примеры:

  • Соотношение прописных слов
  • Слова сленга присутствуют или нет
  • Смайлики присутствуют или нет
  • Язык текста
  • Чувство текста - это совершенно новый топи c в целом, хотя

Надеюсь, это было полезно ...

...