У меня есть столбец данных, который выглядит как
./.
или 0/1
и должен быть разбит на массивы целых чисел со строкой /
, с оговоркой, что .
должно быть пустым.
моя первая попытка сделать это:
df2 = df2.withColumn('genotype_indices', split(col("genotype_index"), "/").cast("array<int>")).alias("genotype_indices")
, но проблема в том, что .
приводится как 0
, что не правильно.
Я действительно не хочу использовать пользовательские функции, так как они могут сделать ноутбуки неоправданно медленными.
Как я могу заставить .
привести к None
или пустому , а все остальные целочисленные строки как целые числа в PySpark?