Удалить теги POS-тегов - PullRequest
0 голосов
/ 14 марта 2012

Можно ли убрать теги из предложений? Это можно сделать путем сканирования файла, поиска тегов и их удаления, но поскольку существует много тегов (некоторые модели имеют 30+, некоторые имеют около 48-50, они в основном следуют за penn treebank pos ), есть ли быстрый и удобный способ удаления тегов более эффективным способом? Я проверил API, но такого способа удаления тегов не было.

1 Ответ

1 голос
/ 17 марта 2012

Для этого нет ничего особенного, но поскольку вывод включает в себя как слово, так и его тег, я не уверен, почему вам нужно снова сканировать исходный документ.Разве вы не можете просто удалить теги, удалив из последнего символа tagSeparator ('/' или чего-либо еще) до пробела?Или, может быть проще использовать

-outputFormat tsv

Тогда вы получите два столбца со словами в первом столбце и тегом во втором столбце, и вы можете просто оставить первый столбец, когда закончите.

...