Объедините Word Embeddings с распределением тематических слов из LDA для обобщения текста - PullRequest
0 голосов
/ 11 марта 2019

Я новичок в НЛП, и мне было интересно, если это хорошая идея, чтобы суммировать документ, который уже был классифицирован по определенной теме, с помощью таких методов, как LDA, с учетом вложения Word, извлеченного из Word2Vec и распределения слово-темакоторый уже сгенерирован, чтобы придумать алгоритм оценки предложений.Похоже ли это на хороший подход к созданию резюме документа?

1 Ответ

0 голосов
/ 20 марта 2019

Я хотел бы предложить вам этот пост .

Вместо использования Skip-Thought Encoder на шаге 4 вы можете использовать предварительно обученную модель Word2Vec из Google или Facebook (см. Документацию FastTest для посмотрите, как разобрать вторую модель или выбрать другой язык).

В общем, у вас будут следующие шаги:

  1. Очистка текста (удалить цифры, но оставить знаки препинания).
  2. Определение языка (для определения и удаления стоп-слов и использования соответствующей версии модели Word2Vec).
  3. Токенизация предложения (после этого вы можете удалить пунктуацию).
  4. Кодировка токенов (с выбранной моделью Word2Vec).
  5. Кластеризация полученных токенов с Kmeans (вы должны указать количество кластеров - оно будет равно числу предложений в будущем резюме).
  6. Получение резюме (одно предложение резюме является средним предложением одного кластера, см. Оригинальный пост для получения дополнительной информации и примеров кода).

Надеюсь, это поможет. Удачи! :)

...