Как узнать, какой текстовый документ сопоставлен с каким идентификатором - PullRequest
0 голосов
/ 22 февраля 2012

Я изучаю Mahout с помощью «Mahou in Action», и сейчас я в главе 8. Я только что скачал файл Reuters-21578 и использую следующие команды для преобразования всех документов в SequenceFile:

bin/mahout seqdirectory -c UTF-8
-i examples/reuters-extracted/ -o reuters-seqfiles

и я получил чанк-0 в папке 'reuters-seqfiles'.

Мой вопрос: как я могу узнать, какому документу был присвоен какой идентификатор в этом файле последовательности?

...