В настоящее время я работаю над фильтром ненависти с использованием Apink Flink's FlinkML, запрограммированного в Scala.
У меня огромный обучающий набор данных .csv, содержащий такие строки, как:
id,count,hate_speech,offensive_language,neither,class,tweet
326,3,0,1,2,2,"""@complex_uk: Ashley Young has tried to deny that bird s*** landed in his mouth ---> http:**** https:****"" hahaha"
Моя проблема, что Flink не включает векторизатор для преобразования твитов в файл LibSVM, читаемый для функции SVM.fit ().
Ребята, вы не представляете, как я могу преобразовать данные выше, используя "класс" -column как метка и «tweet» -колонка как вектор признаков для обучения моего SVM?
Я действительно ценю любую помощь. Поиск по часам.