Удалить дублирующую структуру URL - PullRequest
0 голосов
/ 11 декабря 2018

Я пишу сканер, и у меня есть список, который содержит набор URL, который похож на

  • somesite.com / colection / id / index.php? If = 12
  • somesite.com / index.php? Id = 14
  • somesite.com / index.php? Id = 156
  • example.com / view.php? Image = 441
  • somesite.com / page.php? Id = sas231
  • example.com / view.php? Ivideo = 4
  • somesite.com / page.php? Id = 56
  • example.com / view.php? Image = 1

Я хочу проанализировать URL-адрес, имеющий такую ​​же структуру после домена, и получить первый URL-адрес, как Burp Suite, у него есть будущеекоторый может удалить дублированный URL (те же параметры, но другое значение).

  • somesite.com / colection / id / index.php? if = 12
  • somesite.com / index.php? id = 14
  • example.com / view.php? image = 441
  • somesite.com / page.php? id = asa231
  • example.com / view.php? ivideo = 4

Как видите, страницы одинаковые, но с разными строками запросаemoved.Это то, что я хочу архивировать.Я пробовал много регулярных выражений, но не работает.Может ли кто-нибудь быть добрым, чтобы помочь мне с этим.Заранее спасибо.P / s: Извините за мой английский.

1 Ответ

0 голосов
/ 11 декабря 2018

Вы можете использовать библиотеку urlparse, чтобы разбить URL-адреса на части, а затем извлечь нужные вам части.Например:

>>> from urllib.parse import urlparse
>>> urlparse('http://somesite.com/page.php?id=sas231')
ParseResult(scheme='http', netloc='somesite.com', path='/page.php', params='', query='id=sas231', fragment='')

Документация для версии библиотеки python3 находится по адресу urlparse

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...