Я хочу обработать несколько текстовых файлов, используя NLTK, разбивая их по определенному ключевому слову.Поэтому я пытаюсь " подкласс StreamBackedCorpusView
и переопределить read_block()
метод ", как это предлагается в документации .
class CustomCorpusView(StreamBackedCorpusView):
def read_block(self, stream):
block = stream.readline().split()
print("wtf")
return [] # obviously this is only for debugging
class CustomCorpusReader(PlaintextCorpusReader):
CorpusView = CustomCorpusViewer
Однако мои знаниянаследство ржаво, и, кажется, мое переопределение не принимается во внимание.Вывод
corpus = CustomCorpusReader("/path/to/files/", ".*")
print(corpus.words())
идентичен выводу
corpus = PlaintextCorpusReader("/path/to/files", ".*")
print(corpus.words())
Полагаю, я упускаю что-то очевидное, но что?