Как распараллелить обработку нескольких столбцов данных в python? - PullRequest
0 голосов
/ 13 сентября 2018

У меня есть DataFrame следующим образом:

col1  col2   col3    col4    col5    col5   col6                                            
 0.6  '0'   'first'  0.93   'lion'   0.34   0.98
 0.7  '1'  'second'  0.47    'cat'   0.43   0.76
 0.4  '0'   'third'  0.87  'tiger'   0.24   0.10
 0.6  '0'   'first'  0.93   'lion'   0.34   0.98
 0.5  '1'   'first'  0.32  'tiger'   0.09   0.99
 0.4  '0'   'third'  0.78  'tiger'   0.18   0.17
 0.5  '1'  'second'  0.98    'cat'   0.47   0.78

Мне нужно взять каждый столбец (скажем, col1, col2, col3 и т. Д.) Из приведенного выше DataFrame в цикле for для функции, как показано ниже:

list=[]
for col in df.columns:
    result = performDBSCAN(df[col])
    list.append([col,score])

def performDBSCAN(feature):
    ......(some implementation)
    score = scorecalculate(col)
    ......(some implementation
    return somevalue

def scorecalculate(feature):
    .......(some implementation)
    return scorecal

По сути, я хотел запустить приведенный выше код для многих столбцов, что занимает больше времени для завершения времени обработки. Я хотел знать, как я могу сделать это быстрее или работать параллельно в Python, так как у меня 404 столбца и 5000 строк. Кроме того, мне нужны некоторые предложения о том, могу ли я сделать это в Tensorflow или Spark? (Я задаю этот вопрос, так как понятия не имел по Spark и Tensorflow, но искал предложение)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...