Python NLTK Tagging AssertionError - PullRequest
       4

Python NLTK Tagging AssertionError

0 голосов
/ 22 февраля 2011

Я сталкиваюсь с странной ошибкой утверждения при использовании NLTK для обработки около 5000 сообщений с PlainTextCorpusReader.С некоторыми из наших наборов данных у нас нет серьезных проблем.Тем не менее, в редких случаях меня встречают:

File "/home/cp-staging/environs/cpstaging/lib/python2.5/site-packages/nltk/tag/api.py", line 51, in batch_tag
return [self.tag(sent) for sent in sentences]
File "nltk/corpus/reader/util.py", line 401, in iterate_from
File "nltk/corpus/reader/util.py", line 343, in iterate_from
AssertionError

Мой код работает (в основном) примерно так:

from nltk.corpus import brown
brown_tagged_sents = brown.tagged_sents()
tag0 = ArcBaseTagger('NN')
tag1 = nltk.UnigramTagger(brown_tagged_sents, backoff=tag0)
posts = PlaintextCorpusReader(posts_path, '.*')
tagger = nltk.BigramTagger(brown_tagged_sents, backoff=tag1)
tagged_sents = tagger.batch_tag(posts.sents())

Кажется, что nltk теряет свое место в файлебуфер, но я не на 100% на этом.Есть идеи, что может вызвать это?Кажется, что это как-то связано с данными, которые я обрабатываю.Может, какие-нибудь прикольные персонажи?

Ответы [ 2 ]

0 голосов
/ 03 апреля 2013

Я также столкнулся с этой проблемой, когда одна функция записи делала мои корпуса пустыми.убедившись, что файл, который мы читаем, не пустой, можно избежать этой ошибки.

0 голосов
/ 23 февраля 2011

Удалены некоторые пустые файлы из разбора, проблема решена.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...