Есть ли способ предоставить необработанный текст конвейера StanfordCoreNLP и список токенов в качестве входных данных? - PullRequest
0 голосов
/ 07 февраля 2020

Я делаю некоторую обработку естественного языка с арабским c. Поскольку я работаю с несколькими различными инструментами NLP в тандеме, я хочу иметь возможность передавать необработанный текст в конвейер StanfordCoreNLP, но предоставлять свой собственный список токенов вместо того, чтобы он делал токенизацию. Есть способ сделать это?

1 Ответ

0 голосов
/ 08 февраля 2020

Лучше всего объединить ваши токены с пробелами, а затем использовать опцию -tokenize.whitespace.

Так, например, если у меня был необработанный текст: This is a sentence., и я разбил его на ("This", "is", "a", "sentence", ".") Я бы слил это обратно в строку "This is a sentence ." и использовал бы опцию tokenize.whitespace, которая будет просто разбиваться на пробелы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...