Создать набор данных: извлечь объекты из текстовых документов (TF-IDF) - PullRequest
1 голос
/ 27 мая 2010

Я должен создать набор данных из некоторых текстовых файлов, записав их как векторы функций.

Примерно так:

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

каждая позиция вектора представляет слово, а оценка дается чем-то вроде TF-IDF.

Знаете ли вы какую-нибудь библиотеку / инструмент / что-нибудь для этого? (Java лучше)

Ответы [ 3 ]

2 голосов
/ 14 июня 2010

Через несколько дней я нашел «идеальный инструмент» для этого: Word Vector Tool. http://sourceforge.net/projects/wvtool/

0 голосов
/ 27 мая 2010

Конечно, есть много, например http://en.wikipedia.org/wiki/Lucene

Тем не менее

Я рекомендую вам написать базовую ИК-систему с нуля. Глядя под капот - это всегда отличный учебный опыт.

0 голосов
/ 27 мая 2010

Молоток . в том числе TF-IDF, POS, классификация.

...