Как добавить столбец в один dataframe из другого в pyspark? - PullRequest
0 голосов
/ 21 сентября 2019

Я новичок в pyspark, и я пытался провести токенизацию своих данных.У меня есть мой первый фрейм данных: reviewID | text | stars

Я сделал токенизацию "text" в соответствии с документацией pyspark:

tokenizer = Tokenizer(inputCol="text", outputCol="words")

countTokens = udf(lambda words: len(words), IntegerType())

tokenized = tokenizer.transform(df2)
tokenized.select("text", "words") \
    .withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)

Я получил свои токеныно теперь я хотел бы преобразовать фрейм данных, который выглядит следующим образом:

words | stars

«Words» - мои токены.

Итак, яМне нужно присоединиться к моему первому фрейму данных и токенизированному фрейму данных, чтобы получить нечто подобное.Не могли бы вы мне помочь?Как я могу добавить столбец в другой фрейм данных?

1 Ответ

0 голосов
/ 21 сентября 2019

Хорошо, теперь я понял.Мне просто нужно было сделать:

tokenizer = Tokenizer(inputCol="text", outputCol="words")


tokenized = tokenizer.transform(df2)
tokenized.select("text", "words", "stars").show(truncate=False)

Работает!

...