rvest: read_html () не может прочитать URL, содержащий '#' - PullRequest
0 голосов
/ 20 ноября 2018

Я перебираю сайт потоковой передачи музыки, где обновляются и индексируются новые песни.Первая страница успешно загружена только функцией read_html.Но это не работает для 2-й страницы и далее - вместо этого функция снова возвращает 1-ю страницу.

Оказывается, это происходит из структуры URL-адресов.То есть.

URL 1-й страницы (отображающий 50 песен):

https://www.melon.com/genre/song_list.htm?gnrCode=GN0300

А URL 2-й страницы (отображающей 51-100-ю песню) просто добавляет строку позадипервый, начинающийся с #:

https://www.melon.com/genre/song_list.htm?gnrCode=GN0300#params%5BgnrCode%5D=GN0300&params%5BdtlGnrCode%5D=&params%5BorderBy%5D=NEW&params%5BsteadyYn%5D=N&po=pageObj&startIndex=51

read_html, по-видимому, не принимает участие, начиная с '#';по сути, он работает так, как будто я снова вставляю тот же URL первой страницы.

3-я страница отличается только в "startIndex = 101", поскольку она начинается со 101-й песни.read_html также возвращает первую страницу.

Я думаю, что эта проблема коренится в том, как R обрабатывает контент, содержащий "#", так как эта пунктуация связана с комментированием.Будут ли другие способы позволить ему идентифицировать правильные URL?Или быстрое исправление будет очень цениться.Спасибо.

...