Question

У меня есть DataFrame следующим образом:

col1  col2   col3    col4    col5    col5   col6                                            
 0.6  '0'   'first'  0.93   'lion'   0.34   0.98
 0.7  '1'  'second'  0.47    'cat'   0.43   0.76
 0.4  '0'   'third'  0.87  'tiger'   0.24   0.10
 0.6  '0'   'first'  0.93   'lion'   0.34   0.98
 0.5  '1'   'first'  0.32  'tiger'   0.09   0.99
 0.4  '0'   'third'  0.78  'tiger'   0.18   0.17
 0.5  '1'  'second'  0.98    'cat'   0.47   0.78

Мне нужно взять каждый столбец (скажем, col1, col2, col3 и т. Д.) Из приведенного выше DataFrame в цикле for для функции, как показано ниже:

list=[]
for col in df.columns:
    result = performDBSCAN(df[col])
    list.append([col,score])

def performDBSCAN(feature):
    ......(some implementation)
    score = scorecalculate(col)
    ......(some implementation
    return somevalue

def scorecalculate(feature):
    .......(some implementation)
    return scorecal

По сути, я хотел запустить приведенный выше код для многих столбцов, что занимает больше времени для завершения времени обработки. Я хотел знать, как я могу сделать это быстрее или работать параллельно в Python, так как у меня 404 столбца и 5000 строк. Кроме того, мне нужны некоторые предложения о том, могу ли я сделать это в Tensorflow или Spark? (Я задаю этот вопрос, так как понятия не имел по Spark и Tensorflow, но искал предложение)

Как распараллелить обработку нескольких столбцов данных в python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как распараллелить обработку нескольких столбцов данных в python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов