Rvest Scraping - заголовок атрибута HTML класса времени имеет другое значение по сравнению с веб-страницей - разница в 9 часов - PullRequest
0 голосов
/ 06 января 2020

Я перебираю отзывы клиентов с веб-страницы Bestbuy USA, используя Rvest .

Я столкнулся с довольно странным случаем, есть разница в информации о дате просмотра между веб-страницей и моими данными. Разница составляет 9 часов для каждого обзора.

Например:

<time class="submission-date" title="Dec 28, 2019 2:42 AM">1 week ago</time>

html_nodes(review_page,".review-context .submission-date") %>% html_attr("title") 

Результат: "Де c 27, 2019 17:42"

Как вы можете видите, мой код возвращается за 9 часов.

Информация о моей сессии:

sessionInfo()

R version 3.6.1 (2019-07-05)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)

Matrix products: default

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252    LC_MONETARY=English_United States.1252
[4] LC_NUMERIC=C                           LC_TIME=English_United States.1252 

Я предполагаю, что причиной проблемы является часовой пояс. Мой прокси находится в Великобритании. Я пытался изменить информацию о локали, но ушел с пустыми руками.

Sys.setlocale("LC_TIME", "USA")

Sys.setlocale("LC_TIME", "C")
...