Question

У меня есть набор текстовых документов (2000+) с метками (Понравилось / Не понравилось). Каждый документ состоит из 200+ слов. Я пытаюсь провести контролируемое обучение с этими документами. Мой подход будет следующим:

Векторизация каждого документа в корпусе. Скажем, у нас есть 2347 документов.
У меня может быть 2347 строк с метками, а именно. Как 1 и Не как 0.
Использование любого поезда модели под наблюдением классификации ML над набором данных с 2347 строками.

Как векторизовать и создать такой набор данных?

Shaunak Sen · Answer 1 · 24 января 2020

Одной из вещей, которую вы можете попробовать, является использование Doc2Ve c. Это позволит вам сопоставить каждый документ с вектором измерения N. Затем вы можете использовать любой контролируемый алгоритм обучения для обучения этим N особенностям.

Есть другие альтернативы doc2ve c, упомянутые здесь . Попробуйте Среднее для векторов Word2Ve c с подходом TF-IDF .

Кроме того, убедитесь, что вы применили соответствующую очистку текста перед применением doc2ve c или word2ve c. Шаги, такие как нормализация регистра, удаление стоп-слов, удаление пунктуации и т. Д. c. Это действительно зависит от вашего набора данных. Узнайте больше здесь

Я бы также предложил разработать некоторые функции из ваших данных, если вы хотите прогнозировать, нравится или не нравится. Это зависит от ваших данных и проблемы, но некоторые примеры:

Соотношение прописных слов
Слова сленга присутствуют или нет
Смайлики присутствуют или нет
Язык текста
Чувство текста - это совершенно новый топи c в целом, хотя

Надеюсь, это было полезно ...

Как проводить обучение с использованием Gensim / Word2Vec / Doc2Ve c с большим корпусом текстовых документов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как проводить обучение с использованием Gensim / Word2Vec / Doc2Ve c с большим корпусом текстовых документов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы