Какой лучший способ векторизовать текстовые данные в NLTK, если я хочу сохранить порядок предложений? - PullRequest
0 голосов
/ 07 мая 2020

Я классифицирую текстовые данные и хочу ввести их в модель, но у меня возникла проблема. Я не хочу использовать CountVectorizer, потому что он не сохраняет свою структуру, но также не хочу вручную преобразовывать каждое слово в массив из-за неэффективности.

Какие методы я могу использовать, которые помогут в таких контекст.

Спасибо

1 Ответ

0 голосов
/ 07 мая 2020

Это не прямой ответ на вопрос, но дает перспективу.
Если последовательность слов важнее, чем набор слов, то может помочь использование моделей на основе графов. Например, pycrfsuite - хорошая отправная точка.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...