Я изучаю Mahout с помощью «Mahou in Action», и сейчас я в главе 8. Я только что скачал файл Reuters-21578 и использую следующие команды для преобразования всех документов в SequenceFile:
bin/mahout seqdirectory -c UTF-8
-i examples/reuters-extracted/ -o reuters-seqfiles
и я получил чанк-0 в папке 'reuters-seqfiles'.
Мой вопрос: как я могу узнать, какому документу был присвоен какой идентификатор в этом файле последовательности?