Я пытаюсь написать базовый тег POS для языка Dothraki, используя NLTK. Как и в «Коричневом корпусе», у меня есть собственный файл .txt со словами и связанными с ними частями речи. Например ...
Anha / PRP vidrik / VBP khalasares / NN anni / NN jim / NN
То, что я хотел бы сделать, это загрузить этот корпус в NLTK и иметь возможность видеть части речи рядом со словами, подобно тому, как это делает Коричневый корпус. Вот что я делаю:
from nltk.corpus.reader import TaggedCorpusReader
corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))
Но мой результат:
[[('Anha/PRP', None), ('vidrik/VBP', None), ('khalasares/NN', None), ('anni/NN', None), ('jim/NN', None)]]
Вместо
[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]