Question

Я пробовал ниже в Пандах, и это работает.Я задавался вопросом, как я мог бы сделать это в PySpark?

Ввод

news.bbc.co.uk

он должен разделить его на '.'и, следовательно, индекс должен равняться:

[['news', 'bbc', 'co', 'uk'], ['next', 'domain', 'name']]

index = df2.domain.str.split('.').tolist()

Кто-нибудь знает, как я бы сделал это в искре, а не в пандах?

Спасибо

mayank agrawal · Answer 1 · 24 октября 2018

Вы можете использовать pyspark.sql.functions.split для разделения str.

import pyspark.sql.functions as F

df = df.withColumn('col_name', F.split(F.col('col_name'), '.'))

Разделить столбец данных PySpark в точке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.