Как токенизировать корпус для лемматизации? - PullRequest
0 голосов
/ 17 апреля 2019

Мне нужно лемматизировать корпус (особенно Коричневый корпус).Какой метод для продолжения?

Я использовал метод brown.paras(), чтобы получить список абзацев и сохранить его в переменной.

list1 = brown.paras()

Это мой вывод для list1 переменная

[[['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.']], [['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.']], ...]

Мне нужно токенизировать это, записать токены в нижнем регистре и лемматизировать

...