NLTK его и ее помечены по-разному, - PullRequest
0 голосов
/ 26 февраля 2019

Я только начал экспериментировать с обработкой естественного языка.Мои первые несколько строк кода с NLTK дали непонятные результаты.

import nltk
exampleArray = ['The book is hers',
               'The book is his']
for item in exampleArray:
    tokenized = nltk.word_tokenize(item)
    tagged = nltk.pos_tag(tokenized)
    print(tagged)

Вывод:

[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('hers', 'NNS')]
[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('his', 'PRP$')]

Почему «его» и «ее» помечены так по-разному?

1 Ответ

0 голосов
/ 28 февраля 2019

Я не могу найти никакой документации о модели, но теггер, вероятно, был обучен тексту Wall Street Journal из Penn Treebank, который не известен своим гендерным балансом.

Обратите внимание, что "его"имеет неправильный тег, здесь тоже.Оба должны быть PRP.В дереве WSJ есть один случай его / PRP (против> 2000 его / PRP $, некоторые из которых могут быть ошибками) и один из Hers / JJ (насколько я могу судить, ошибка тегирования).Тэггер с немного лучшей моделью (используя лучшие тренировочные данные) должен быть в состоянии правильно пометить «ее», но «его» останется хитрым.

Кроме того, «ее» достаточно часто помечается как JJв субкорпорации Brown and Switchboard, что я не совсем уверен, что происходит, хотя я думаю, что это ошибки.В стандартных рекомендациях по маркировке PTB четко сказано, что это PRP, а быстрый поиск не приводит к появлению альтернативных рекомендаций.

...