Я новичок в pyspark, и я пытался провести токенизацию своих данных.У меня есть мой первый фрейм данных: reviewID | text | stars
Я сделал токенизацию "text" в соответствии с документацией pyspark:
tokenizer = Tokenizer(inputCol="text", outputCol="words")
countTokens = udf(lambda words: len(words), IntegerType())
tokenized = tokenizer.transform(df2)
tokenized.select("text", "words") \
.withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)
Я получил свои токеныно теперь я хотел бы преобразовать фрейм данных, который выглядит следующим образом:
words | stars
«Words» - мои токены.
Итак, яМне нужно присоединиться к моему первому фрейму данных и токенизированному фрейму данных, чтобы получить нечто подобное.Не могли бы вы мне помочь?Как я могу добавить столбец в другой фрейм данных?