что подходит для меня? generateAllGrams () или generateCollocations () мне достаточно? - PullRequest
0 голосов
/ 14 марта 2011

Я занимаюсь разработкой проекта по обобщению документов на основе wordnet. Мне нужно извлечь коллокации. Я пытался исследовать столько, сколько мог, но так как я не работал с Mahout до того, как у меня возникли трудности с пониманием того, как работает CollocDriver.java (в контексте API)

прочесывая паутину, я наткнулся на это: Mahout Collocations

это проблема: у меня есть POSTagged входной текст. Мне нужно определить коллокации в нем. У меня есть код collocdriver.java. Теперь мне нужно знать, как его использовать? использовать ли метод generateAllGrams () или только метод generateCollocations () для моей подзадачи в моем сумматоре .. ??

а главное как его использовать? я поднимаю этот вопрос, потому что я признаю, я не очень хорошо знаю API,

я также получил версию collocdriver с использованием grepcode *, две реализации кажутся немного различными ... входные данные представлены в виде строки для версии grepcode и в виде объекта Path в исходном ...

мои вопросы: что такое объект конфигурации во входных параметрах и как его использовать ?? Будет ли источник / Destn будет в строке (как в grepcode) или путь (как в оригинале) ?? какой будет выход?

Я провел дальнейшие НИОКР по программе collocdriver ... Я узнал, что она использует файл последовательности, а затем генерирует вектор ... Я хочу знать, как работает этот файл последовательности / генерация вектора.

1 Ответ

0 голосов
/ 22 марта 2011

Чтобы получить словосочетание с помощью mahout, вам нужно выполнить несколько простых шагов

1) Вы должны создать файл последовательности из входного текстового файла.

/ bin / mahout seqdirectory -i / home / developer / Desktop / colloc / -o / home / developer / Desktop / colloc / test-seqdir -c UTF-8 -chunk 5

2) Существует два способа создания коллокаций из файла последовательности.

a)Convert sequence file to sparse vector and find out the collocation
b)Directly find out the collocation from the sequence file (with out creating the sparse vector)

3) Здесь я рассматриваю выбор б.

/ bin / mahout org.apache.mahout.vectorizer.collocations.llr.CollocDriver -i / home / developer / Desktop / colloc / test-seqdir -o / home / developer / Рабочий стол / colloc / test-colloc -a org.apache.mahout.vectorizer.DefaultAnalyzer -ng 3 -p

Просто проверьте выходную папку, там вам нужны файлы !!! (в формате файла последовательности)

/ bin / mahout seqdumper -s / home / developer / Desktop / colloc / test-colloc / ngrams / part-r-00000 >> out.txt даст вам текстовый вывод !!!

...