Как выполняется токенизация в Stanford POS tagger? - PullRequest
2 голосов
/ 12 мая 2011

Я собираюсь использовать тег POS Стэнфорда, чтобы пометить предложения. Я хочу разбить документы на предложения, а затем предложения на токены. Поскольку я использую Java впервые, я просто хочу запустить тег из командной строки.

Поскольку я запускаю теггер, он выдает выходные данные, но выдает предупреждение "untokenizable". Что означает это предупреждение? Не является ли токенизация неявно сделанной тегером?

Я попытался запустить команду для разделения текста на предложения, которые вы указали, но она не работает. Теггер выдает ошибку, что не может открыть путь.

Я также хочу знать, как я могу ввести количество текстовых файлов и получить их выходные данные в соответствующих файлах, чтобы все выходные данные не перемешивались.

1 Ответ

4 голосов
/ 13 мая 2011

Да, Stanford POS tagger содержит высококачественный детерминированный токенизатор, который используется, если вы не говорите, что текст уже токенизирован. Для формального английского текста он превосходит большинство других токенизаторов, хотя он не полностью подходит для смс, твитов и т. Д.

Необозначаемое предупреждение означает, что на входе есть последовательности байтов / символов, которые он не может обработать.

Обычно это на самом деле означает следующее: кодировка символов по умолчанию для тегера является utf-8 (Unicode), но ваш документ находится в какой-то другой кодировке, такой как 8-битная кодировка, например iso-8859-1 или Windows cp1252. Вы можете преобразовать документ или указать кодировку входного документа с флагом -encoding.

Но это также может означать, что на входе есть редкий символ, о котором он не знает. Обычно в тех случаях, если это просто случайный символ, вы можете просто игнорировать сообщения. Вы можете выбрать, будут ли символы удалены или превращены в 1 символьные токены.

В настоящее время нет возможности запустить его на связке файлов одной командой. Вам нужно будет либо запустить его отдельно для каждого файла, либо написать собственный код для этого.

...