Преобразование непомеченных корпусов в помеченные (NLTK) - PullRequest
2 голосов
/ 22 июля 2011

У меня есть открытый текст, который я хочу пометить и сохранить, чтобы я мог использовать его дальше. Какой лучший способ сделать это?

У меня уже есть мой tagger, но я не могу найти способ изменить корпус, который не грязный

Ответы [ 2 ]

1 голос
/ 22 июля 2011

Взгляните на другие помеченные корпуса, например коричневые, для примеров вывода. Это даст вам представление о том, как должен выглядеть помеченный корпус. Затем загрузите ваш корпус (с PlaintextCorpusReader) и итерируйте предложения, помечая каждое предложение. Затем запишите каждое предложение с тегом в файл, сделав строку из предложения с тегом, как в ' '.join([tuple2str(t) for t in tagged_sent]) (после того, как вы выполните from nltk.tag.util import tuple2str). И это нормально, если ваш код «грязный», если он правильно выполняет свою работу. Здесь вам не нужен элегантный алгоритм, вы запускаете очень специфический скрипт для создания собственного корпуса.

0 голосов
/ 22 июля 2011

Вы делаете простую разметку Unigram, или вы действительно анализируете текст? Я считаю, что NLTK анализирует / теги так, что вывод каждого токена (токен, PoS). Является ли массив кортежей неприемлемым для хранения ваших корпусов? Почему вы находите это грязным?

...