Stanford POS tagger в использовании Java - PullRequest
11 голосов
/ 09 марта 2011
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)

Это ошибки, которые я получаю, когда хочу назначить POS-теги предложениям. Я читаю предложения из файла. Первоначально (для нескольких предложений) я не получаю эту ошибку (то есть неотмечаемую), но после прочтения некоторых предложений эта ошибка возникает. Я использую v2.0 (т.е. 2009) POS-тегера, а модель - left3words.

Ответы [ 4 ]

8 голосов
/ 10 марта 2011

Я согласен с Yuval - проблема с кодировкой символов, но на самом деле наиболее распространенный случай - это когда файл находится в однобайтовой кодировке, такой как ISO-8859-1, когда теггер пытается прочитать его в UTF-8.Смотрите обсуждение U + FFFD на Википедии .

2 голосов
/ 09 марта 2011

Это похоже на проблему кодирования для меня.Можете ли вы опубликовать оскорбительное предложение?Я не смог найти это в документации, но я бы попробовал проверить, находится ли файл в кодировке UTF-8.

1 голос
/ 12 июля 2014

Я тоже столкнулся с этой проблемой.Один из способов проверить, является ли символ токенизируемым, состоит в том, чтобы проверить, не произошел ли у него сбой Character.isIdentifierIgnorable () .Символ, который не может быть идентифицирован, вернет true, в то время как все символы, подлежащие токенизации, вернут false.

0 голосов
/ 01 августа 2013

Если вы читаете контент из DOC, Portable Document Format (PDF), используйте Apache Tika .Это будет извлекать ваш контент.Это может помочь вам.

Apache Tika

О Tika

Apache Tika - это набор инструментов для обнаружения и извлечения метаданныхи структурированный текстовый контент из различных документов с использованием существующих библиотек синтаксического анализатора.Он написан на Java, но включает в себя версию командной строки для использования на других языках.

Дополнительная информация о Tika, системе отслеживания ошибок, списках рассылки, загрузках и т. Д. Доступна по адресу http://tika.apache.org/

...