Примените функцию RDkit к каждому значению столбца в фрейме данных Pyspark. - PullRequest
0 голосов
/ 28 января 2020

Я создал CSV-файл данных Pyspark для хеминформатики (2 столбца). А теперь я хочу применить функцию MolFromSmiles из модуля RDkit.Chem к каждому значению столбца информационного кадра. Первый столбец содержит «структуры улыбок». Я уже установил RDkit в Enaconda

df = spark.read.csv("gs://my-bucket/my-file.csv")

df = df.withColumn(col, Chem.MolFromSmiles(df['_c0']))

Я новичок в Pyspark и RDkit. Но я перебрал dask dataframe, и он работал нормально. Но я не уверен, как это сделать в Pyspark. Может кто-нибудь, пожалуйста, помогите мне?

TypeError: Ни один зарегистрированный конвертер не смог произвести C ++ значение типа class std :: basic_string, class std :: allocator> из этого Python объекта типа Column

...