Выполните итерацию по указанному c фрейму данных Pyspark и получите другое значение столбца - PullRequest
0 голосов
/ 29 января 2020

Я создал фрейм данных Pyspark из CSV-файла, и мне нужно перебрать значения, применить некоторую функцию и получить соответствующий идентификатор.

Col0, Col1
-----------
id1,value1
id2,value2
id3,value3

Это код Pyspark -

from rdkit import Chem
from pyspark import SparkContext
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession

sc = SparkContext.getOrCreate()
spark = SparkSession(sc)

df = spark.read.csv("gs://my-bucket/my_file.csv") # has two columns

Например, псевдокод будет

for x in df['col1']:
  apply a function(x)
  if successful:
    then get df['col0']

Пожалуйста, извините за слабую попытку, так как я полностью новичок в pyspark / python.

Кто-нибудь может мне помочь?

...