Кажется, ответ в сообщении об ошибке: ввод pos_tag
должен быть строкой, а вы вводите столбец. Вы должны применить pos_tag
к каждой строке вашего столбца, используя функцию withColumn
Например, вы начинаете с записи:
my_new_df = df_removed.withColumn("removed", nltk.pos_tag(df_removed.removed))
Вы также можете сделать:
my_new_df = df_removed.select("removed").rdd.map(lambda x: nltk.pos_tag(x)).toDF()
Здесь у вас есть документация.