Взгляните на другие помеченные корпуса, например коричневые, для примеров вывода. Это даст вам представление о том, как должен выглядеть помеченный корпус. Затем загрузите ваш корпус (с PlaintextCorpusReader
) и итерируйте предложения, помечая каждое предложение. Затем запишите каждое предложение с тегом в файл, сделав строку из предложения с тегом, как в ' '.join([tuple2str(t) for t in tagged_sent])
(после того, как вы выполните from nltk.tag.util import tuple2str
). И это нормально, если ваш код «грязный», если он правильно выполняет свою работу. Здесь вам не нужен элегантный алгоритм, вы запускаете очень специфический скрипт для создания собственного корпуса.