Я хочу переписать ниже для цикла, записанного в R в Pyspark.
for (i in unique(fix_map[!is.na(area)][order(area), area])) {
# select all contact records from the currently processed area, and also those without area assigned
m_f_0 <- unique(con_melt[area == i | area == "Unknown"])
con_melt также имеет значение как "Неизвестно"
Поэтому я хочу выбрать общие записи, которые присутствуют в fix_map и con_melt на основе записей "area" и AND con_melt, для которых значение столбца "area" также равно "Unknown".
Я попытался использовать объединение в pyspark, но затем теряю значение «Неизвестно».
Пожалуйста, предложите, как с этим справиться
fix_map:
id value area type
1: 227149 385911000059 510 mob
2: 122270 385911000661 110 fix
con_melt:
id area type
1: 227149 510 mob
2: 122270 100 fix
3. 122350 Unknown fix
Выход должен быть:
value area type
1: 385994266007 510 mob
2: 122350 Unknown fix