Question

Я новичок в НЛП, и мне было интересно, если это хорошая идея, чтобы суммировать документ, который уже был классифицирован по определенной теме, с помощью таких методов, как LDA, с учетом вложения Word, извлеченного из Word2Vec и распределения слово-темакоторый уже сгенерирован, чтобы придумать алгоритм оценки предложений.Похоже ли это на хороший подход к созданию резюме документа?

O. Kaminska · Answer 1 · 20 марта 2019

Я хотел бы предложить вам этот пост .

Вместо использования Skip-Thought Encoder на шаге 4 вы можете использовать предварительно обученную модель Word2Vec из Google или Facebook (см. Документацию FastTest для посмотрите, как разобрать вторую модель или выбрать другой язык).

В общем, у вас будут следующие шаги:

Очистка текста (удалить цифры, но оставить знаки препинания).
Определение языка (для определения и удаления стоп-слов и использования соответствующей версии модели Word2Vec).
Токенизация предложения (после этого вы можете удалить пунктуацию).
Кодировка токенов (с выбранной моделью Word2Vec).
Кластеризация полученных токенов с Kmeans (вы должны указать количество кластеров - оно будет равно числу предложений в будущем резюме).
Получение резюме (одно предложение резюме является средним предложением одного кластера, см. Оригинальный пост для получения дополнительной информации и примеров кода).

Надеюсь, это поможет. Удачи! :)

Объедините Word Embeddings с распределением тематических слов из LDA для обобщения текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Объедините Word Embeddings с распределением тематических слов из LDA для обобщения текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы