В чем разница между уровнем токена и уровнем сегмента в задаче НЛП? - PullRequest
0 голосов
/ 23 ноября 2018

На самом деле, я не очень разбираюсь в токене. Когда я читаю модель googleresearch / bert, я вижу эти слова.

# In the demo, we are doing a simple classification task on the entire   
# segment.  
#   
# If you want to use the token-level output, use model.get_sequence_output()   # instead.

Может кто-нибудь привести пример классификации уровня токена и уровня сегмента

1 Ответ

0 голосов
/ 23 ноября 2018

Классификация на уровне сегмента означает, что каждый сегмент будет иметь одну метку, например, классификатор, который классифицирует обзор фильма как хороший или плохой.Для всей входной последовательности существует только одна выходная метка.

Классификация на уровне токена означает, что каждому токену будет присвоена метка, например, метка части речи будет классифицировать каждое слово как одну конкретную частьречь.Каждый токен (элемент в последовательности) будет иметь соответствующую метку на выходе.

Если вы не уверены, что такое токен, вы можете начать думать о нем как о каждом слове в предложении, ноесли быть более точным, посмотрите на https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html. В зависимости от того, как вы токенизируете и обрабатываете текст, токенами могут быть слова, знаки пунктуации, специальные маркеры, символы уровня подслов и т. д.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...