Я хочу выполнить предварительную обработку текстовых данных, используя мою собственную функцию, а затем применить счетчик. Могу ли я использовать конвейер для этих двух работ?
Да, вы можете. Scikit-learn имеет класс CountVectorizer, который является преобразователем, и вы можете создать преобразователь предварительной обработки текстовых данных, следуя scikit-learn API .
Этот красивый блог показывает, как построить собственный преобразователь и как использовать его в конвейере, следуйте ему.