создавать поддельные аномалии в dataframe - pyspark - PullRequest
0 голосов
/ 09 декабря 2018

для реализации обучения в произвольном лесу без наблюдения - я хочу пометить обученные данные как чистые и создать поддельные данные на основе этих данных, но с аномалиями между их функциями, поэтому модель будет обнаруживать эти строки как аномалии.что-то вроде этого делается с помощью rdd в столбце функций (вектор):

columns = df.first()
new_df = None
for i in range(0, len(columns)):
    column = df.sample(withReplacement=True, fraction=fraction) \
        .map(lambda row: row[i]) \
        .zipWithIndex() \
        .map(lambda e: (e[1], [e[0]]))
    if new_df is None:
        new_df = column
    else:
        new_df = new_df.join(column)
        new_df = new_df.map(lambda e: (e[0], e[1][0] + e[1][1]))
return new_df.map(lambda e: e[1])

, но я хочу реализовать его с помощью API Dataframe, а не с rdd.У кого-нибудь есть подсказка, как это сделать?я полагаю, что делать это с dataframe api будет намного быстрее на pyspark ....

...