Я использую следующий код для очистки ссылок / заголовков / изображений из следующей ссылки и загрузки их на устройство (view-source: http://feeds.thisiscriminal.com/CriminalShow).
Я не могу использовать изображения с каждым эпизодом, так как не думаю, что они действительно являются изображениями, например, например. http://feeds.feedburner.com/~r/CriminalShow/~4/ENsi-bf5uC4. Нет. GIF и т. Д. Расширение ...
Я собираю изображения с другой части сайта, используя это:
import requests
import pandas as pd
import urllib
import re
resp = requests.get("https://thisiscriminal.com/wp-json/criminal/v1/episodes?posts=1000000&page=1").json()
df = pd.DataFrame(resp['posts'], columns=['image'])
df['image'] = df['image'].apply(pd.Series)['medium'].replace({'"': '\'','""': '\'','"""': '\'' }, regex=True)
Regex_Pattern = r"([^\/]+$)"
for index, row in df.iterrows():
match = re.findall(Regex_Pattern, row['image'])
myfilename = ''.join(match)
print(row['image'])
print(myfilename)
urllib.urlretrieve(row['image'], myfilename)
По сути, мой вопрос заключается в том, как объединить указанные выше локальные выходные файлы в относительные ссылки со следующим кодом?
для содержимого в soup.find_all ():
thumbnail = content.find('image')
thumbnail = thumbnail.get('src')
Я предполагаю, что это будет / output / folder / etc, но как мне связать каждый эпизод? Глядя на вывод, в нумерации вообще нет реальной методологии, может быть целесообразно сохранить каждое изображение в отдельной подпапке, чтобы я мог просто сослаться на одно-единственное изображение в этой папке? Сейчас я размышляю вслух, но думаю ... Если сработало странное изображение, которое, вероятно, решило бы эту проблему, подходит ли оно кому-нибудь еще или это мой браузер?