В нескольких статьях по темам встраивания слов и документов (word2vec, doc2vec) упоминается, что они использовали инфраструктуру Stanford CoreNLP для токенизации / лемматизации / POS-тега для ввода слов / предложений:
Корпуса были лемматизированы и помечены POS с помощью Stanford CoreNLP (Manning et al., 2014), и каждый токен был заменен своей леммой и POS-меткой
(http://www.ep.liu.se/ecp/131/039/ecp17131039.pdf)
Для предварительной обработки мы токенизируем слова в нижнем регистре, используя Stanford CoreNLP
(https://arxiv.org/pdf/1607.05368.pdf)
Итак, мои вопросы:
Почему в первой статье применяется POS-тегирование? Затем каждый токен будет заменен чем-то вроде {lemma}_{POS}
и всего, что использовалось для обучения модели? Или теги используются для фильтрации токенов? Например, применяется gensims WikiCorpusлемматизация по умолчанию, а затем сохраняет только несколько типов части речи (глаголы, существительные и т. д.) и избавляется от остальных.Так что рекомендуемый путь?
Цитатаиз смне кажется, что вторая бумага только разделяет слова, а затем строчные.Это также то, что я впервые попробовал, прежде чем использовать WikiCorpus.На мой взгляд, это должно дать лучшие результаты для встраивания документов, так как большинство типов POS вносят вклад в значение предложения.Я прав?
В оригинальной статье doc2vec я не нашел подробностей об их предварительной обработке.