Я делаю некоторые практические занятия в Интернете на python для nltk.
Задача состоит в том, чтобы отфильтровать слова из полного набора Text6, имеющие первую букву в верхнем регистре и все другие буквы в нижнем регистре.Выведите количество присутствующих слов.
Может кто-нибудь, пожалуйста, помогите сказать точный ответ (как это стандартный текст из книги NLTK) и что не так в коде.
Я попробовал ниже код:
from nltk.book import text6
import re
pattern = '[A-Z]+[a-z]+$'
capsword= [word for word in set(text6) if re.search(pattern, word)]
print(len(capsword))
Мой фактический вывод - 461. Но я не уверен в ожидаемом выводе, так как он скрыт.