Я работаю над проектом, который должен подсчитывать вхождение каждого слова в текстовый файл.
Например, у меня есть такой текстовый файл:
Что ищет Серебряное озеро у кандидатов на IPO
Прибыль 3 компаний: Apple, Cirrus Logic, IBM
Palmisano от IBM: как стать 100-летней компанией
Если в файле показано 3 предложения выше, и я хочу вычислить вхождение каждого слова. Здесь «Компании» и «Компания» следует рассматривать как одно и то же слово «компания» (в нижнем регистре), поэтому общее вхождение слова «компания» равно 2.
Существует ли какой-либо инструментарий НЛП для Java, который может сказать, что два слова, такие как "семьи" и "семья", на самом деле принадлежат одному и тому же слову "семья"?
Я буду подсчитывать вхождение каждого слова для дальнейшего обучения наивного байесовского обучения, поэтому очень важно получить точное число вхождений каждого слова.