Python - разобрать все видео с сайта - PullRequest
0 голосов
/ 12 февраля 2019

Мне нужна помощь с парсером на сайте, например: https://filmy.plus/kategoria/Horror

Я написал немного кода и все работает нормально, но только для 12 видео (Первая загрузка)

url = 'https://filmy.plus/kategoria/Horror'
response = get(url)
#print(response.text[:6000])
html_soup = BeautifulSoup(response.text, 'lxml')
type(html_soup)
movie_containers = html_soup.find_all('div', class_ = 'movie-box-3 movie-box-search')
print(url, "\nLiczba Filmów: ", len(movie_containers),"\n")

for i in range(0,len(movie_containers)):
    first_movie = movie_containers[i]
    print(first_movie.a.h2.text)
    print('https://filmy.plus'+first_movie.a['href']+'\n')

enter image description here Но как загрузить все видео?Мне нужно нажать «Pokaż więcej» 3-4 раза?для загрузки всего видео с сайта.Я не знаю, как обойти это и получить все ссылки с URL

Спасибо

Ответы [ 2 ]

0 голосов
/ 12 февраля 2019

Поскольку @DivideBy0 упоминается , вы можете удалить все данные с помощью API :

import re
import requests

result = {}
for i in range(100):
    response = requests.get('https://filmy.plus/jquery_kategorie_pokaz_wiecej.php?kategoria=Horror&strona={}'.format(i+1))
    for film in response.json()['wynik']:
        title = re.findall('title=\"(.*)\"', film)[0]
        link = 'https://filmy.plus' + re.findall('href=\"(.*)\" ', film)[0]
        result[title] = link

print('Videos found: {}'.format(len(result)))
for i, el in enumerate(result.items()):
    print('{}. {} {}'.format(i+1, el[0], el[1]))

Вы получите на выходе:

Videos found: 66
1. Anakondy: Polowanie na Krwawą Orchideę https://filmy.plus/film2/Anakondy.Polowanie.Na.Krwawa.Orchidee
2. Uciec przeznaczeniu https://filmy.plus/film/Uciec+przeznaczeniu-2009-378067
3. Jad https://filmy.plus/film/Jad-1981-11436
4. Venom https://filmy.plus/film/Venom-1971-37749
5. Zakonnica https://filmy.plus/film/Zakonnica-2018-777024

и т.д ...

0 голосов
/ 12 февраля 2019

Hard Way

селеновый вебдрайвер смоделирован нажмите следующую страницу

Easy Way

Используйте веб-сайт api

https://filmy.plus/jquery_kategorie_pokaz_wiecej.php?kategoria=Horror&strona=1

...