НЛП: предварительная обработка в doc2vec / word2vec - PullRequest
0 голосов
/ 29 мая 2018

В нескольких статьях по темам встраивания слов и документов (word2vec, doc2vec) упоминается, что они использовали инфраструктуру Stanford CoreNLP для токенизации / лемматизации / POS-тега для ввода слов / предложений:

Корпуса были лемматизированы и помечены POS с помощью Stanford CoreNLP (Manning et al., 2014), и каждый токен был заменен своей леммой и POS-меткой

(http://www.ep.liu.se/ecp/131/039/ecp17131039.pdf)

Для предварительной обработки мы токенизируем слова в нижнем регистре, используя Stanford CoreNLP

(https://arxiv.org/pdf/1607.05368.pdf)

Итак, мои вопросы:

  • Почему в первой статье применяется POS-тегирование? Затем каждый токен будет заменен чем-то вроде {lemma}_{POS} и всего, что использовалось для обучения модели? Или теги используются для фильтрации токенов? Например, применяется gensims WikiCorpusлемматизация по умолчанию, а затем сохраняет только несколько типов части речи (глаголы, существительные и т. д.) и избавляется от остальных.Так что рекомендуемый путь?

  • Цитатаиз смне кажется, что вторая бумага только разделяет слова, а затем строчные.Это также то, что я впервые попробовал, прежде чем использовать WikiCorpus.На мой взгляд, это должно дать лучшие результаты для встраивания документов, так как большинство типов POS вносят вклад в значение предложения.Я прав?

В оригинальной статье doc2vec я не нашел подробностей об их предварительной обработке.

...