Да, Stanford POS tagger содержит высококачественный детерминированный токенизатор, который используется, если вы не говорите, что текст уже токенизирован. Для формального английского текста он превосходит большинство других токенизаторов, хотя он не полностью подходит для смс, твитов и т. Д.
Необозначаемое предупреждение означает, что на входе есть последовательности байтов / символов, которые он не может обработать.
Обычно это на самом деле означает следующее: кодировка символов по умолчанию для тегера является utf-8 (Unicode), но ваш документ находится в какой-то другой кодировке, такой как 8-битная кодировка, например iso-8859-1 или Windows cp1252. Вы можете преобразовать документ или указать кодировку входного документа с флагом -encoding.
Но это также может означать, что на входе есть редкий символ, о котором он не знает. Обычно в тех случаях, если это просто случайный символ, вы можете просто игнорировать сообщения. Вы можете выбрать, будут ли символы удалены или превращены в 1 символьные токены.
В настоящее время нет возможности запустить его на связке файлов одной командой. Вам нужно будет либо запустить его отдельно для каждого файла, либо написать собственный код для этого.