Использование Spark и библиотеки Pandas для Python.В основном у меня есть следующее:
df.groupby('sIP').agg({'duration': 'sum'}).show()
Что дает мне следующий вывод:
+---------------+------------------+
| sIP| sum(duration)|
+---------------+------------------+
| 203.13.173.243| 0.0|
| 204.62.16.153| 17522.927|
| 203.30.177.95| 1.081|
| 56.23.191.99| 113.186|
Сумма продолжительности всех различных IP-адресов источника.
Что яхочу сделать сейчас, получить максимум от этой суммы, и получить соответствующий исходный IP.Поэтому я должен был бы запросить DataFrame после того, как он был изменен (запрос выше).
Поэтому я попытался:
df.groupby('sIP').agg({'duration': 'max'}).show()
Но он все еще запрашивает исходный DataFrame следующим образом:
+---------------+-------------+
| sIP|max(duration)|
+---------------+-------------+
| 203.13.173.243| 0.0|
| 204.62.16.153| 1790.305|
| 203.30.177.95| 1.081|
| 56.23.191.99| 22.563|
Есть ли способ перезаписать состояние кадра данных?Я смотрел на преобразования, но безуспешно, коллекционирование () было другой вещью, которую я изучал, но все еще ничего ...
Чего мне не хватает?
Заранее спасибо.