Чтобы получить словосочетание с помощью mahout, вам нужно выполнить несколько простых шагов
1) Вы должны создать файл последовательности из входного текстового файла.
/ bin / mahout seqdirectory -i / home / developer / Desktop / colloc / -o / home / developer / Desktop / colloc / test-seqdir -c UTF-8 -chunk 5
2) Существует два способа создания коллокаций из файла последовательности.
a)Convert sequence file to sparse vector and find out the collocation
b)Directly find out the collocation from the sequence file (with out creating the sparse vector)
3) Здесь я рассматриваю выбор б.
/ bin / mahout org.apache.mahout.vectorizer.collocations.llr.CollocDriver -i / home / developer / Desktop / colloc / test-seqdir -o / home / developer / Рабочий стол / colloc / test-colloc -a org.apache.mahout.vectorizer.DefaultAnalyzer -ng 3 -p
Просто проверьте выходную папку, там вам нужны файлы !!! (в формате файла последовательности)
/ bin / mahout seqdumper -s / home / developer / Desktop / colloc / test-colloc / ngrams / part-r-00000 >> out.txt даст вам текстовый вывод !!!