Как пометить текстовые файлы с помощью hunpos в nltk? - PullRequest
0 голосов
/ 23 февраля 2011

Может ли кто-нибудь помочь мне с синтаксисом hunpos, помечающим корпус в nltk?

  1. Что я могу импортировать для hunpos.HunPosTagger модуля ?

  2. Как HunPosTag корпус?См. Код ниже.


import nltk 
from nltk.corpus import PlaintextCorpusReader  
from nltk.corpus.util import LazyCorpusLoader  

corpus_root = './'  
reader = PlaintextCorpusReader (corpus_root, '.*')  

ntuen = LazyCorpusLoader ('ntumultien', PlaintextCorpusReader, reader)  
ntuen.fileids()  
isinstance (ntuen, PlaintextCorpusReader)  


# So how do I hunpos tag `ntuen`? I can't get the following code to work.
# please help me to correct my python syntax errors, I'm new to python 
# but i really need this to work. sorry
##from nltk.tag import hunpos.HunPosTagger
ht = HunPosTagger('english.model')
for sentence in ntu.sent() ##looping through the no. of sentence
     ht.tag(ntusent()[i])

1 Ответ

4 голосов
/ 24 февраля 2011
import nltk 
from nltk.tag.hunpos import HunposTagger
from nltk.tokenize import word_tokenize

corpus = "so how do i hunpos tag my ntuen ? i can't get the following code to work."
#please help me to correct my python syntax errors, i'm new to python 
#but i really need this to work. sorry
##from nltk.tag import hunpos.HunPosTagger
ht = HunposTagger('en_wsj.model')
print ht.tag(word_tokenize(corpus))

Мне кажется, проблема в том, что вы не пишете токены, но есть и другие причины, по которым код может не работать (это HunposTagger, а не HunPosTagger). Я сделал этот упрощенный пример из вашего вопроса. Если у вас есть еще вопросы, пожалуйста, оставьте комментарий.

Я получил все отсюда: http://code.google.com/p/hunpos/

python hunpos.py

[('so', 'RB'), ('how', 'WRB'), ('do', 'VBP'), ('i', 'FW'), ('hunpos', ' NN '), (' tag ',' NN '), (' my ',' PRP $ '), (' ntuen ',' NN '), ('? ','. '), (' I ', 'FW'), ('ca', 'MD'), ('n't', 'RB'), ('get', 'VB'), ('the', 'DT'), ('follow ',' JJ '), (' code ',' NN '), (' to ',' TO '), (' work ',' VB '), ('. ','. ')]

...