Я создал фрейм данных Pyspark из CSV-файла, и мне нужно перебрать значения, применить некоторую функцию и получить соответствующий идентификатор.
Col0, Col1
-----------
id1,value1
id2,value2
id3,value3
Это код Pyspark -
from rdkit import Chem
from pyspark import SparkContext
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
sc = SparkContext.getOrCreate()
spark = SparkSession(sc)
df = spark.read.csv("gs://my-bucket/my_file.csv") # has two columns
Например, псевдокод будет
for x in df['col1']:
apply a function(x)
if successful:
then get df['col0']
Пожалуйста, извините за слабую попытку, так как я полностью новичок в pyspark / python.
Кто-нибудь может мне помочь?