Я использую Apache Spark для анализа apache файла журнала доступа к серверу, и мне интересно, как я могу извлечь из него все веб-сессии? Я уже извлек все URL-адреса с их разрядами, но я ищу регулярное выражение, чтобы применить и найти все запросы к страницам и удалить из него все изображения, CSS и JavaScript.
IS200_df = (logs_df
.filter(logs_df['status'] == 200 ))
IS_endpoints_freq_df = (IS200_df
.groupBy('endpoint')
.count()
.sort('count', ascending=False).limit(20))