NLTK POS маркировка с использованием моего собственного помеченного корпуса? - PullRequest
0 голосов
/ 03 мая 2018

Я пытаюсь написать базовый тег POS для языка Dothraki, используя NLTK. Как и в «Коричневом корпусе», у меня есть собственный файл .txt со словами и связанными с ними частями речи. Например ...

Anha / PRP vidrik / VBP khalasares / NN anni / NN jim / NN

То, что я хотел бы сделать, это загрузить этот корпус в NLTK и иметь возможность видеть части речи рядом со словами, подобно тому, как это делает Коричневый корпус. Вот что я делаю:

from nltk.corpus.reader import TaggedCorpusReader

corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))

Но мой результат:

[[('Anha/PRP', None), ('vidrik/VBP', None), ('khalasares/NN', None), ('anni/NN', None), ('jim/NN', None)]]

Вместо

[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]

1 Ответ

0 голосов
/ 03 мая 2018

Так что сейчас я чувствую себя немного глупо, но мне удалось получить то, что я хотел, просто удалив ". *" Из параметров TaggedCorpusReader. Итак, что у меня сейчас есть:

dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".txt")
print (dothraki_corpus_tagged.tagged_sents('dothraki_01.txt'))
...