уменьшение размеров матрицы TFIDF - PullRequest
1 голос
/ 30 марта 2011

Я вычисляю TFIdf (термин частота, обратная частота документа), и я увидел, что после этого шага необходимо уменьшить размерность My Matrix с использованием таких методов, как LSI, chi -square test ...,

Я понятия не имею, как я могу реализовать тест хи-квадрат в Java для уменьшения размерности матрицы TFIDF, если есть какая-то библиотека для этого или учебник, в котором они объясняют, как я могу это сделать, скажите, пожалуйста

Ответы [ 2 ]

3 голосов
/ 28 мая 2011

использовать библиотеку gensims для LSA, LDA. Он может практически выполнять LSA для любого большого набора данных. Он не загружает весь корпус сразу в память, а выполняет ленивое чтение.

0 голосов
/ 29 мая 2011

Я не думаю, что вы хотите делать хи-квадрат;это не метод уменьшения размеров.

То, что вы хотите сделать, это SVD, или разложение по сингулярным значениям.Это метод, используемый в LSI / LSA для уменьшения размерности.

Википедия предлагает использовать библиотеку S-Space Pacakage для LSA в Java.Я не использовал это сам, но вы можете посмотреть на это.

http://code.google.com/p/airhead-research/

...