Как найти корпус с помощью nltk? - PullRequest
0 голосов
/ 23 февраля 2020

Я нашел этот код в Интернете:

import nltk
corp = nltk.corpus.ConllCorpusReader('.', 'tiger_release_aug07.corrected.16012013.conll09',
                                 ['ignore', 'words', 'ignore', 'ignore', 'pos'],
                                 encoding='utf-8')

Я не могу понять, откуда исходит файл 'tiger_release_aug07.corrected.16012013.conll09'. Я имею в виду: как я могу знать, что параметр именно этот, а не 'tiger_release_aug20.corrected.conll20'? Я хочу получить аналогичный список всех файловых файлов, как показано в https://www.nltk.org/book/ch02.html:

from nltk.corpus import gutenberg
gutenberg.fileids()

-

1) Где находится 'tiger_release_aug07.corrected.16012013.conll09' откуда и где он хранится?

2) Как просмотреть список всех доступных файловых файлов для ConllCorpusReader

3) Есть ли какая-либо страница, которая дает обзор последних ( немецкий) корпус?

...