Я перебираю отзывы клиентов с веб-страницы Bestbuy USA, используя Rvest .
Я столкнулся с довольно странным случаем, есть разница в информации о дате просмотра между веб-страницей и моими данными. Разница составляет 9 часов для каждого обзора.
Например:
<time class="submission-date" title="Dec 28, 2019 2:42 AM">1 week ago</time>
html_nodes(review_page,".review-context .submission-date") %>% html_attr("title")
Результат: "Де c 27, 2019 17:42"
Как вы можете видите, мой код возвращается за 9 часов.
Информация о моей сессии:
sessionInfo()
R version 3.6.1 (2019-07-05)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)
Matrix products: default
locale:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252 LC_MONETARY=English_United States.1252
[4] LC_NUMERIC=C LC_TIME=English_United States.1252
Я предполагаю, что причиной проблемы является часовой пояс. Мой прокси находится в Великобритании. Я пытался изменить информацию о локали, но ушел с пустыми руками.
Sys.setlocale("LC_TIME", "USA")
Sys.setlocale("LC_TIME", "C")