Разделить столбец данных PySpark в точке - PullRequest
0 голосов
/ 24 октября 2018

Я пробовал ниже в Пандах, и это работает.Я задавался вопросом, как я мог бы сделать это в PySpark?

Ввод

news.bbc.co.uk

он должен разделить его на '.'и, следовательно, индекс должен равняться:

[['news', 'bbc', 'co', 'uk'], ['next', 'domain', 'name']]

index = df2.domain.str.split('.').tolist() 

Кто-нибудь знает, как я бы сделал это в искре, а не в пандах?

Спасибо

1 Ответ

0 голосов
/ 24 октября 2018

Вы можете использовать pyspark.sql.functions.split для разделения str.

import pyspark.sql.functions as F

df = df.withColumn('col_name', F.split(F.col('col_name'), '.'))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...