Чтобы извлечь больше информации из годовых отчетов (10ks), я пытаюсь сравнить компании на основе косинусного сходства. Одним из шагов в этом исследовании является определение или лемматизация слов. Причина для этого состоит в том, чтобы получить корень слов, чтобы, когда у вас не было разных вариантов, слова, которые по своей сути означают одно и то же. Для стеммера и лемматизатора я использовал стебмер SnowBall и WordNetLemmatizer из пакета NLTK.
например. stemming:; Например. лемматизации
walking -> walk walking-> walking
walked -> walk walked -> walked
or
owing -> owe owing -> owing
owed -> owe owed -> owed
Вопрос в следующем : должен ли я использовать стеммер или лемматизатор для финансового текста?
На мой взгляд, стеммер был бы более подходящим для такого рода исследований.
Отказ от ответственности: я знаю, что уже есть вопрос, обсуждающий противодействие лемматизации в стеке потока. Тем не менее, я ищу некоторые разъяснения относительно финансового текста, в частности, не в качестве общего случая.