Question

Я делаю некоторую обработку естественного языка с арабским c. Поскольку я работаю с несколькими различными инструментами NLP в тандеме, я хочу иметь возможность передавать необработанный текст в конвейер StanfordCoreNLP, но предоставлять свой собственный список токенов вместо того, чтобы он делал токенизацию. Есть способ сделать это?

StanfordNLPHelp · Answer 1 · 08 февраля 2020

Лучше всего объединить ваши токены с пробелами, а затем использовать опцию -tokenize.whitespace.

Так, например, если у меня был необработанный текст: This is a sentence., и я разбил его на ("This", "is", "a", "sentence", ".") Я бы слил это обратно в строку "This is a sentence ." и использовал бы опцию tokenize.whitespace, которая будет просто разбиваться на пробелы.

Есть ли способ предоставить необработанный текст конвейера StanfordCoreNLP и список токенов в качестве входных данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли способ предоставить необработанный текст конвейера StanfordCoreNLP и список токенов в качестве входных данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы