для реализации обучения в произвольном лесу без наблюдения - я хочу пометить обученные данные как чистые и создать поддельные данные на основе этих данных, но с аномалиями между их функциями, поэтому модель будет обнаруживать эти строки как аномалии.что-то вроде этого делается с помощью rdd в столбце функций (вектор):
columns = df.first()
new_df = None
for i in range(0, len(columns)):
column = df.sample(withReplacement=True, fraction=fraction) \
.map(lambda row: row[i]) \
.zipWithIndex() \
.map(lambda e: (e[1], [e[0]]))
if new_df is None:
new_df = column
else:
new_df = new_df.join(column)
new_df = new_df.map(lambda e: (e[0], e[1][0] + e[1][1]))
return new_df.map(lambda e: e[1])
, но я хочу реализовать его с помощью API Dataframe, а не с rdd.У кого-нибудь есть подсказка, как это сделать?я полагаю, что делать это с dataframe api будет намного быстрее на pyspark ....