Использование Beautifulsoup / Pandas для очистки изображений и вставки относительной ссылки - PullRequest
0 голосов
/ 20 июня 2019

Я использую следующий код для очистки ссылок / заголовков / изображений из следующей ссылки и загрузки их на устройство (view-source: http://feeds.thisiscriminal.com/CriminalShow).

Я не могу использовать изображения с каждым эпизодом, так как не думаю, что они действительно являются изображениями, например, например. http://feeds.feedburner.com/~r/CriminalShow/~4/ENsi-bf5uC4. Нет. GIF и т. Д. Расширение ...

Я собираю изображения с другой части сайта, используя это:

import requests
import pandas as pd
import urllib
import re

resp = requests.get("https://thisiscriminal.com/wp-json/criminal/v1/episodes?posts=1000000&page=1").json()
df = pd.DataFrame(resp['posts'], columns=['image'])
df['image'] = df['image'].apply(pd.Series)['medium'].replace({'"': '\'','""': '\'','"""': '\'' }, regex=True)
Regex_Pattern = r"([^\/]+$)"

for index, row in df.iterrows():
    match = re.findall(Regex_Pattern, row['image'])
    myfilename = ''.join(match)
    print(row['image'])
    print(myfilename)
    urllib.urlretrieve(row['image'], myfilename)

По сути, мой вопрос заключается в том, как объединить указанные выше локальные выходные файлы в относительные ссылки со следующим кодом?

для содержимого в soup.find_all ():

    thumbnail = content.find('image')
    thumbnail = thumbnail.get('src')

Я предполагаю, что это будет / output / folder / etc, но как мне связать каждый эпизод? Глядя на вывод, в нумерации вообще нет реальной методологии, может быть целесообразно сохранить каждое изображение в отдельной подпапке, чтобы я мог просто сослаться на одно-единственное изображение в этой папке? Сейчас я размышляю вслух, но думаю ... Если сработало странное изображение, которое, вероятно, решило бы эту проблему, подходит ли оно кому-нибудь еще или это мой браузер?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...