Так что я пытаюсь сделать небольшой анализ текста с этого сайта "https://www.bmkg.go.id/gempabumi/gempabumi-terkini.bmkg" - особенно из строк 452 до 1050 через Источники разработчика. Я не смог сделать это успешно; и моя цель - после того, как мне это удастся, мне придется преобразовать его в информационный кадр с пользовательскими метками, а затем сохранить как файл CSV на моем локальном диске.
Правильна ли моя логика c по достижению этой цели, или я даже неправильно понимаю, с чего начать?
Вот что у меня есть:
library(httr)
library(dplyr)
bmkg_current <- GET("https://www.bmkg.go.id/gempabumi/gempabumi-terkini.bmkg")
stringi::stri_enc_detect(content(bmkg_current, "raw")) //just to check encoding type
bmkg_text <- content(bmkg_current, type ="text", encoding = "ISO-8859-1")
bmkg_df <- tibble(line = 452:1050, text = bmkg_text)
bmkg_df //tried to output, but not want I wanted
Вывод:
# A tibble: 599 x 2
line text
<int> <chr>
1 452 "<!DOCTYPE html>\r\n<!--[if IE 8]> <html lang=\"en\" clas~
2 453 "<!DOCTYPE html>\r\n<!--[if IE 8]> <html lang=\"en\" clas~
3 454 "<!DOCTYPE html>\r\n<!--[if IE 8]> <html lang=\"en\" clas~
4 455 "<!DOCTYPE html>\r\n<!--[if IE 8]> <html lang=\"en\" clas~
5 456 "<!DOCTYPE html>\r\n<!--[if IE 8]> <html lang=\"en\" clas~
Вот как выглядят строки 452 - 1050 в HTML от разработчика Источник:
<tr>
<td>2</td>
<td>29-Mar-20 <br>06:10:35 WIB</td>
<td>-7.39</td>
<td>124.19</td>
<td>5.2</td>
<td>631 Km</td>
<td>108 km BaratLaut ALOR-NTT</td>
</tr>
Любая помощь по этому вопросу будет принята с благодарностью! Спасибо:)