Regex_webpages_from_log_files - PullRequest
       3

Regex_webpages_from_log_files

0 голосов
/ 11 февраля 2020

Я использую Apache Spark для анализа apache файла журнала доступа к серверу, и мне интересно, как я могу извлечь из него все веб-сессии? Я уже извлек все URL-адреса с их разрядами, но я ищу регулярное выражение, чтобы применить и найти все запросы к страницам и удалить из него все изображения, CSS и JavaScript.

IS200_df = (logs_df
               .filter(logs_df['status'] == 200 ))
IS_endpoints_freq_df = (IS200_df
                               .groupBy('endpoint')
                               .count()
                               .sort('count', ascending=False).limit(20))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...