Как найти «Покрытие Word» для всех файлов, связанных с определенным текстовым корпусом - PullRequest
0 голосов
/ 22 июня 2019

Отображение покрытия слов для каждого идентификатора файла в отдельной строке текстового корпуса "gutenberg" из nltk.corpus.

  1. Пробуется путем деления общего количества символов в каждом файле на количество слов.
  2. Пробуется путем деления общего количества символов в каждом файле с уникальным количеством слов.
from nltk.corpus import gutenberg
for fileid in gutenberg.fileids(): 
    print((len(gutenberg.raw(fileid))/len(gutenberg.words(fileid))), fileid)
from nltk.corpus import gutenberg
for fileid in gutenberg.fileids(): 
   print((len(gutenberg.raw(fileid))/len(set(gutenberg.words(fileid)))), fileid)

Пожалуйста, примите к сведению ----
1. Это задача, которую я пытаюсь выполнить
2. Ожидаемый результат мне неизвестен
3. Если вывод правильный - он позволит перейти к следующим шагам вызова
4. Запустив приведенный выше код - я не получил ни одной ошибки, но в любом случае требуемый вывод не приходит, и он не позволяет мне выполнить задачу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...