Я пытаюсь пометить несколько интервью на немецком языке.Я получил отличные результаты с ClassifierBasedGermanTagger, используя Tiger-Corpus.Я сохранил отмеченные результаты в виде файлов .txt, но из-за некоторых проблем, касающихся качества транскрипции, я хочу вернуться к файлам и внести некоторые изменения в слова или теги.Есть ли простой способ сделать это в Python?
До сих пор я пробовал nltk.corpus.reader function
, но я даже не был уверен, что это правильная функция для этого.я получил немного больше с функцией str2tuple, используя код:
[nltk.tag.str2tuple(t) for t in sent.split()]
, но он всегда разделяет слова и теги
Это формат файла .txt:
('word', 'tag'), ('word', 'tag'), ('word', 'tag'), ...