Я пытаюсь использовать NLTK для работы с New York Times Annotated Corpus , который содержит XML-файл для каждой статьи (в текстовом формате новостной индустрии NITF).
Я могу анализировать отдельные документы без проблем, вот так:
from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader('nltk_data/corpora/nytimes/1987/01/01', r'0000000.xml')
Мне нужно работать над всем корпусом.Я попытался сделать это:
reader = XMLCorpusReader('corpora/nytimes', r'.*')
, но это не создает полезного объекта для чтения.Например,
len(reader.words())
возвращает
raise TypeError('Expected a single file identifier string')
TypeError: Expected a single file identifier string
Как мне прочитать этот корпус в NLTK?
Я новичок в NLTK, поэтому любая помощь очень ценится.