Я использовал почтальон, чтобы получить URL-адреса из API, чтобы я мог посмотреть на некоторые названия. Ответ был сохранен как файл. json.
Фрагмент моего ответа. Файл json выглядит следующим образом:
{
"apiUrl":"https://api.ft.com/example/83example74-3c9b-11ea-a01a-example547046735",
"title": {
"title": "Example title example title example title"
},
"lifecycle": {
"initialPublishDateTime":"2020-01-21T22:54:57Z",
"lastPublishDateTime":"2020-01-21T23:38:19Z"
},
"location":{
"uri":"https://www.ft.com/exampleurl/83example74-3c9b-11ea-a01a-example547046735"
},
"summary": "...",
# ............(this continues for all different titles I found)
}
Поскольку я хочу просмотреть статьи, я хочу создать список всех URL-адресов. Меня не интересует apiUrl, а только URI.
Мой текущий python файл выглядит следующим образом
with open ("My path to file/response.json") as file:
for line in file:
urls = re.findall('https://(?:[-\www.]|(?:%[\da-fA-F]{2}))+', line)
print(urls)
Это дает мне следующий вывод: ['https://api.ft.com', 'https://www.ft.com', 'https://api.ft.com', 'https://www.ft.com',........
Тем не менее, я хочу видеть полный URL для www.ft.com (поэтому не URL api.ft.com, так как я не заинтересован в них). Например, я хочу, чтобы моя программа извлекала что-то вроде: https://www.ft.com/thisisanexampleurl/83example74-3c9b-11ea-a01a-example547046735
Я хочу, чтобы программа делала это для всего файла ответов
Кто-нибудь знает способ сделать это?
Вся помощь будет оценена. Raymond