Конвейер предварительной обработки зависит главным образом от вашей проблемы, которую вы пытаетесь решить.Использование TF-IDF, встраивание слов и т. Д. Имеет свои ограничения и преимущества.
Вам необходимо понять проблему, а также данные, связанные с ней.Чтобы наилучшим образом использовать данные, нам нужно реализовать правильный конвейер.
Специально для текстовых проблем вы найдете вложения слов очень полезными.TF-IDF полезен, когда нужно решить проблему, подчеркнув слова с меньшей частотой.Вложения слова, с другой стороны, преобразуют текст в N-мерный вектор, который может показывать сходство с каким-либо другим вектором.Это может принести ощущение связи в ваших данных, и модель сможет изучить наилучшие возможные функции.
В простых случаях мы можем использовать пакет слов для обозначения текстов.
ИтакВам нужно найти лучший подход к вашей проблеме.Если вы решаете проблему, которая очень похожа на известные проблемы НЛП, такие как классификация обзора IMDB, анализ настроений в данных Twitter, то вы можете найти несколько подходов в Интернете.