Question

Я пытаюсь получить IP-адреса с сайта ниже. Мне удалось получить весь сайт с красивым супом python и использовать модуль регулярных выражений python, чтобы просто получить адрес ip4. но я столкнулся с проблемой, мне просто нужно, чтобы ipv4 ip были в разделе "S3", любая помощь будет высоко ценится

https://ip -ranges.amazonaws.com / IP-ranges.json

akamai_feed = urlopen('https://ip-ranges.amazonaws.com/ip-ranges.json').read() 
soup = BeautifulSoup(akamai_feed, 'html.parser')
ip_addr = re.findall(r'\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}.\d{1,3}.\b', soup.get_text())

Andrej Kesely · Answer 1 · 11 июня 2019

Этот канал представляет собой файл Json, поэтому вы можете использовать модуль json из стандартной библиотеки Python:

from urllib.request import urlopen
import json

akamai_feed = json.loads( urlopen('https://ip-ranges.amazonaws.com/ip-ranges.json').read() )

for prefix in akamai_feed['prefixes']:
    if prefix['service'] == 'S3':
        print(prefix['ip_prefix'])

Отпечатки:

...

52.95.163.0/24
52.95.145.0/24
52.92.40.0/21
52.219.32.0/21
52.95.136.0/23
52.219.62.0/23
52.95.175.0/24

... and so on

Jens · Answer 2 · 11 июня 2019

Веб-сайт содержит вложенный словарь в виде JSON, поэтому вам необходимо сначала прочитать эти данные JSON:

>>> import urllib.request
>>> import json
>>> akamai_feed = urllib.request.urlopen('https://ip-ranges.amazonaws.com/ip-ranges.json').read()
>>> akamai_json = json.loads(akamai_feed)

Теперь, когда у вас есть фактические данные, вы можете просмотреть, например, фильтр () функция:

>>> list(filter(lambda _: _['service'] == 'S3', akamai_json['prefixes']))
[{'ip_prefix': '52.95.154.0/23', 'region': 'eu-west-3', 'service': 'S3'}, {'ip_prefix': '52.219.64.0/22', 'region': 'ap-south-1', 'service': 'S3'}, ...]

Это дает вам список словарей, 'service' которых равен 'S3'.В качестве альтернативы, вы также можете использовать понимание списка:

>>> [_ for _ in json.loads(akamai_feed)['prefixes'] if _['service'] == 'S3']
[{'ip_prefix': '52.95.154.0/23', 'region': 'eu-west-3', 'service': 'S3'}, {'ip_prefix': '52.219.64.0/22', 'region': 'ap-south-1', 'service': 'S3'}, ...]

Если вас интересуют только IP-адреса, то ...

>>> [_['ip_prefix'][:-3] for _ in json.loads(akamai_feed)['prefixes'] if _['service'] == 'S3']
['52.95.154.0', '52.219.64.0', ...]

Если /xx может быть любым числомцифр или если IP-адреса имеют формат, отличный от строк IPv4, то regex поможет отфильтровать строку.

Emma · Answer 3 · 11 июня 2019

Регулярное выражение здесь не нужно, потому что IP-адреса могут не требовать проверки, если я правильно понимаю проблему, мы просто хотим получить значение "ip_prefix", но если вы хотите сделать это с помощью регулярного выражения, этого может быть достаточно:

"ip_prefix": "(.+?)"

Демо

Test

# coding=utf8
# the above tag defines encoding for this document and is for Python 2.x compatibility

import re

regex = r"\"ip_prefix\": \"(.+?)\""

test_str = ("{\n"
    "  \"syncToken\": \"1560279544\",\n"
    "  \"createDate\": \"2019-06-11-18-59-04\",\n"
    "  \"prefixes\": [\n"
    "    {\n"
    "      \"ip_prefix\": \"18.208.0.0/13\",\n"
    "      \"region\": \"us-east-1\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"52.95.245.0/24\",\n"
    "      \"region\": \"us-east-1\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"52.194.0.0/15\",\n"
    "      \"region\": \"ap-northeast-1\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"54.155.0.0/16\",\n"
    "      \"region\": \"eu-west-1\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"54.196.0.0/15\",\n"
    "      \"region\": \"us-east-1\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"99.78.170.0/23\",\n"
    "      \"region\": \"ap-southeast-2\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"52.94.22.0/24\",\n"
    "      \"region\": \"us-gov-east-1\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"52.95.255.112/28\",\n"
    "      \"region\": \"us-west-2\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"13.210.0.0/15\",\n"
    "      \"region\": \"ap-southeast-2\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"52.94.17.0/24\",\n"
    "      \"region\": \"eu-central-1\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"52.95.154.0/23\",\n"
    "      \"region\": \"eu-west-3\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"52.95.212.0/22\",\n"
    "      \"region\": \"ap-southeast-1\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"54.239.0.240/28\",\n"
    "      \"region\": \"eu-west-2\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"54.241.0.0/16\",\n"
    "      \"region\": \"us-west-1\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"184.169.128.0/17\",\n"
    "      \"region\": \"us-west-1\",\n"
    "      \"service\": \"AMAZON\"\n"
    "    },\n"
    "    {\n"
    "      \"ip_prefix\": \"216.182.224.0/21\",\n"
    "      \"region\": \"us-east-1\",\n"
    "      \"service\": \"AMAZON\"\n\n"
    "...")

matches = re.finditer(regex, test_str, re.MULTILINE)

for matchNum, match in enumerate(matches, start=1):

    print ("Match {matchNum} was found at {start}-{end}: {match}".format(matchNum = matchNum, start = match.start(), end = match.end(), match = match.group()))

    for groupNum in range(0, len(match.groups())):
        groupNum = groupNum + 1

        print ("Group {groupNum} found at {start}-{end}: {group}".format(groupNum = groupNum, start = match.start(groupNum), end = match.end(groupNum), group = match.group(groupNum)))

# Note: for Python 2.7 compatibility, use ur"" to prefix the regex and u"" to prefix the test string and substitution.

Необходимо извлечь разделы Amazon S3 из файла ip-range

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Демо

Test

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Необходимо извлечь разделы Amazon S3 из файла ip-range

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Демо

Test

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов