У меня есть DataFrame
следующим образом:
col1 col2 col3 col4 col5 col5 col6
0.6 '0' 'first' 0.93 'lion' 0.34 0.98
0.7 '1' 'second' 0.47 'cat' 0.43 0.76
0.4 '0' 'third' 0.87 'tiger' 0.24 0.10
0.6 '0' 'first' 0.93 'lion' 0.34 0.98
0.5 '1' 'first' 0.32 'tiger' 0.09 0.99
0.4 '0' 'third' 0.78 'tiger' 0.18 0.17
0.5 '1' 'second' 0.98 'cat' 0.47 0.78
Мне нужно взять каждый столбец (скажем, col1
, col2
, col3
и т. Д.) Из приведенного выше DataFrame
в цикле for для функции, как показано ниже:
list=[]
for col in df.columns:
result = performDBSCAN(df[col])
list.append([col,score])
def performDBSCAN(feature):
......(some implementation)
score = scorecalculate(col)
......(some implementation
return somevalue
def scorecalculate(feature):
.......(some implementation)
return scorecal
По сути, я хотел запустить приведенный выше код для многих столбцов, что занимает больше времени для завершения времени обработки. Я хотел знать, как я могу сделать это быстрее или работать параллельно в Python, так как у меня 404 столбца и 5000 строк. Кроме того, мне нужны некоторые предложения о том, могу ли я сделать это в Tensorflow
или Spark
? (Я задаю этот вопрос, так как понятия не имел по Spark
и Tensorflow
, но искал предложение)