Как и в Reddit r / pic sub-reddit, я хочу агрегировать медиа из разных источников. Некоторые сайты используют спецификации OEmbed для показа мультимедиа на странице, но не все сайты делают это. Я просматривал исходники Reddit, потому что по сути они «очищают» ссылки, которые пользователи отправляют, получают изображения, видео и т. Д. Они создают эскизы, которые затем отображаются вдоль ссылки на их сайте. Теперь я хотел бы сделать что-то подобное, и я посмотрел на их код [1], и кажется, что у них есть собственные скребки для каждого распознаваемого домена, а затем у них есть общий класс Scraper, который использует простую логику для получения изображений из любого домена. (в основном они извлекают веб-страницу, анализируют HTML, а затем определяют самое большое изображение на странице, которое затем используют для создания эскиза).
Поскольку это открытый исходный код, я, вероятно, могу повторно использовать код для своего приложения, но, к сожалению, я выбрал Perl, так как это хобби-проект, и я пытаюсь изучить Perl. Есть ли модуль Perl, который имеет аналогичную функциональность? Если нет, существует ли модуль Perl, похожий на Python Imaging Library? Было бы удобно определить размеры изображения без фактической загрузки всего изображения и создания эскизов.
Спасибо!
[1] https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py