Я перебираю сайт потоковой передачи музыки, где обновляются и индексируются новые песни.Первая страница успешно загружена только функцией read_html.Но это не работает для 2-й страницы и далее - вместо этого функция снова возвращает 1-ю страницу.
Оказывается, это происходит из структуры URL-адресов.То есть.
URL 1-й страницы (отображающий 50 песен):
https://www.melon.com/genre/song_list.htm?gnrCode=GN0300
А URL 2-й страницы (отображающей 51-100-ю песню) просто добавляет строку позадипервый, начинающийся с #:
https://www.melon.com/genre/song_list.htm?gnrCode=GN0300#params%5BgnrCode%5D=GN0300¶ms%5BdtlGnrCode%5D=¶ms%5BorderBy%5D=NEW¶ms%5BsteadyYn%5D=N&po=pageObj&startIndex=51
read_html
, по-видимому, не принимает участие, начиная с '#';по сути, он работает так, как будто я снова вставляю тот же URL первой страницы.
3-я страница отличается только в "startIndex = 101", поскольку она начинается со 101-й песни.read_html также возвращает первую страницу.
Я думаю, что эта проблема коренится в том, как R обрабатывает контент, содержащий "#", так как эта пунктуация связана с комментированием.Будут ли другие способы позволить ему идентифицировать правильные URL?Или быстрое исправление будет очень цениться.Спасибо.