OpenNLP: восстановление предложения и тегов из POSSample, записанного в файл - PullRequest
0 голосов
/ 28 марта 2019

Мы читаем строки POSSample {т.е. posSampleObject.toString ()} из файла.Естественно, каждый токен имеет свой pos-тэг в качестве суффикса.Есть ли способ восстановить предложение и теги из файлов такого типа?Мы не хотим заново изобретать колесо, извлекая суффикс POS-тега, слово за словом, если только нам это не нужно.

Если готового решения не существует, это то, что мы имеем в виду:

(0) Read string from file
(1) Tokenize the string
(2) Extract the trailing suffix
(3) Store the prefix in the sentence[] array
(4) Store the suffix (after dropping the additional "_" character) in the tags[] array

Как уже упоминалось, мы предпочли бы повторно использовать существующее решение, а не придумывать собственное.

...