Стемминг против лемматизации для финансового текста в питоне [NLTK] - PullRequest
0 голосов
/ 26 октября 2018

Чтобы извлечь больше информации из годовых отчетов (10ks), я пытаюсь сравнить компании на основе косинусного сходства. Одним из шагов в этом исследовании является определение или лемматизация слов. Причина для этого состоит в том, чтобы получить корень слов, чтобы, когда у вас не было разных вариантов, слова, которые по своей сути означают одно и то же. Для стеммера и лемматизатора я использовал стебмер SnowBall и WordNetLemmatizer из пакета NLTK.

например. stemming:; Например. лемматизации walking -> walk walking-> walking walked -> walk walked -> walked or owing -> owe owing -> owing owed -> owe owed -> owed
Вопрос в следующем : должен ли я использовать стеммер или лемматизатор для финансового текста?

На мой взгляд, стеммер был бы более подходящим для такого рода исследований.

Отказ от ответственности: я знаю, что уже есть вопрос, обсуждающий противодействие лемматизации в стеке потока. Тем не менее, я ищу некоторые разъяснения относительно финансового текста, в частности, не в качестве общего случая.

...