Выходной формат в вашем примере выглядит как chasen2, который определен в файле dicrc.
Это было бы:
; ChaSen (include spaces)
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen2 = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen2 = EOS\n
Для нормального формата узла это будет:
1. surface value, including any whitespace
2. \t
3. reading
4. \t
5. root form
6. \t
7. part of speech
8. part of speech, subtype 1
9. part of speech, subtype 2
10. part of speech, subtype 3
11. \t
12. conjugation
13. \t
14. inflection
15. newline
, где пункты с 7 по 10 разделены дефисом.
Для получения более подробной информации, вы должны увидеть документацию 出力 フ ォ ー マ ッ ト для mecab.
РЕДАКТИРОВАТЬ: обновлена ссылка на страницу объяснения форматирования вывода MeCab.