Question

Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: � (U+FFFD, decimal: 65533)

Это ошибки, которые я получаю, когда хочу назначить POS-теги предложениям. Я читаю предложения из файла. Первоначально (для нескольких предложений) я не получаю эту ошибку (то есть неотмечаемую), но после прочтения некоторых предложений эта ошибка возникает. Я использую v2.0 (т.е. 2009) POS-тегера, а модель - left3words.

Christopher Manning · Answer 1 · 10 марта 2011

Я согласен с Yuval - проблема с кодировкой символов, но на самом деле наиболее распространенный случай - это когда файл находится в однобайтовой кодировке, такой как ISO-8859-1, когда теггер пытается прочитать его в UTF-8.Смотрите обсуждение U + FFFD на Википедии .

Yuval F · Answer 2 · 09 марта 2011

Это похоже на проблему кодирования для меня.Можете ли вы опубликовать оскорбительное предложение?Я не смог найти это в документации, но я бы попробовал проверить, находится ли файл в кодировке UTF-8.

Adam_G · Answer 3 · 12 июля 2014

Я тоже столкнулся с этой проблемой.Один из способов проверить, является ли символ токенизируемым, состоит в том, чтобы проверить, не произошел ли у него сбой Character.isIdentifierIgnorable () .Символ, который не может быть идентифицирован, вернет true, в то время как все символы, подлежащие токенизации, вернут false.

Rahul Kulhari · Answer 4 · 01 августа 2013

Если вы читаете контент из DOC, Portable Document Format (PDF), используйте Apache Tika .Это будет извлекать ваш контент.Это может помочь вам.

Apache Tika

О Tika

Apache Tika - это набор инструментов для обнаружения и извлечения метаданныхи структурированный текстовый контент из различных документов с использованием существующих библиотек синтаксического анализатора.Он написан на Java, но включает в себя версию командной строки для использования на других языках.

Дополнительная информация о Tika, системе отслеживания ошибок, списках рассылки, загрузках и т. Д. Доступна по адресу http://tika.apache.org/

Stanford POS tagger в использовании Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Stanford POS tagger в использовании Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы