Я создал CSV-файл данных Pyspark для хеминформатики (2 столбца). А теперь я хочу применить функцию MolFromSmiles из модуля RDkit.Chem к каждому значению столбца информационного кадра. Первый столбец содержит «структуры улыбок». Я уже установил RDkit в Enaconda
df = spark.read.csv("gs://my-bucket/my-file.csv")
df = df.withColumn(col, Chem.MolFromSmiles(df['_c0']))
Я новичок в Pyspark и RDkit. Но я перебрал dask dataframe, и он работал нормально. Но я не уверен, как это сделать в Pyspark. Может кто-нибудь, пожалуйста, помогите мне?
TypeError: Ни один зарегистрированный конвертер не смог произвести C ++ значение типа class std :: basic_string, class std :: allocator> из этого Python объекта типа Column