Загрузка необработанного текста с веб-страницы - PullRequest
2 голосов
/ 31 марта 2020

Я хочу загрузить все данные с этой веб-страницы:

https://download.bls.gov/pub/time.series/la/la.data.64.County

Если вы откроете ее, как вы видите, всплывает куча текстовых данных, но страница довольно быстро зависает , Обычный способ сделать это:

1: ctrl+a
2: ctrl+c
3: ctrl+v into a text editor or excel
4: import that file into R

Поскольку страница перестает отвечать на запросы почти сразу, я не могу делать то, что обычно делаю.

Есть идеи?

Ответы [ 3 ]

1 голос
/ 31 марта 2020

Если вы хотите работать с этими данными в R, вы можете использовать fread из data.table

library(data.table)
df <- fread('https://download.bls.gov/pub/time.series/la/la.data.64.County')
head(df)

#              series_id year period value footnote_codes
#1: LAUCN010010000000003 1990    M01   6.4               
#2: LAUCN010010000000003 1990    M02   6.6               
#3: LAUCN010010000000003 1990    M03   5.8               
#4: LAUCN010010000000003 1990    M04   6.6               
#5: LAUCN010010000000003 1990    M05   6.0               
#6: LAUCN010010000000003 1990    M06   7.0      

Данные очень большие, но, кажется, импортируются непосредственно в R сессию.

0 голосов
/ 31 марта 2020
  1. Проверка текущей страницы

enter image description here

Запись document.getElementsByTagName("pre")[0].innerHTML;

enter image description here

3. Нажмите «Копировать»

enter image description here

А теперь вставьте его в блокнот или еще что-нибудь.

0 голосов
/ 31 марта 2020

Вы можете использовать curl (linux)

curl https://download.bls.gov/pub/time.series/la/la.data.64.County -o data.txt

Если вы используете windows, возможно, одна из этих альтернатив подойдет вам.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...