По умолчанию они оба используют токенизацию на основе регулярных выражений. Разница заключается в их сложности:
Они оба очень быстрые, так как они просто запускают регулярные выражения. Если у вас есть очень простой текст с не слишком большим количеством знаков препинания или неупорядоченных символов, то Keras может быть самым простым выбором.
Если вы действительно хотите использовать нейронную сеть, которая может правильно анализировать числа, даты и т. Д. И потенциально выполнять тегирование части речи, вы можете использовать распознавание сущностей:
- Stanford CoreNLP , который предоставляет полный конвейер для обработки текста, поиска зависимостей, распознавания прав доступа и т. Д.
- SpaCy также является полным конвейером Python NLP, который дает вам аналогичные результаты, а также загружает соответствующие векторы слов, такие как GloVe.
Вышеуказанные два медленнее, чем любые методы на основе регулярных выражений, но это зависит от исходного текста, который вы хотите обработать.