Для этого нет ничего особенного, но поскольку вывод включает в себя как слово, так и его тег, я не уверен, почему вам нужно снова сканировать исходный документ.Разве вы не можете просто удалить теги, удалив из последнего символа tagSeparator ('/' или чего-либо еще) до пробела?Или, может быть проще использовать
-outputFormat tsv
Тогда вы получите два столбца со словами в первом столбце и тегом во втором столбце, и вы можете просто оставить первый столбец, когда закончите.