Получить информацию с TXT - PullRequest
0 голосов
/ 02 мая 2020

У меня вопрос к R. У меня есть столбец Excel, все строки которого состоят из ссылок. Я хочу создать бота или каким-либо другим способом, получить информацию по этой ссылке (вся информация в виде простого текста .txt). Знаете ли вы, как извлечь эту информацию и метры в правой колонке? Привет и спасибо!.

Я пытался прочитать.delim, но у меня есть эта проблема.

read.delim("http://multimedia.globomatik.net/productsSheet/A0017969.txt")

Ошибка в read.table (file = file, header = header, sep = sep, quote = quote,: больше столбцов, чем имен столбцов

С другой стороны, я пытался использовать:

read.txt("http://multimedia.globomatik.net/productsSheet/A0023294.txt"))

Но для меня создано много строк. Знаете ли вы, Есть ли способ присоединиться к этим линиям?

СПАСИБО!

1 Ответ

1 голос
/ 02 мая 2020

Если вы просто хотите объединить строки текста в векторе, вы можете использовать paste(x, collapse = "\n")

Вероятно, лучше всего определить простую функцию для чтения содержимого URL-адреса и возврата всех вставленных строк. вместе:

get_txt <- function(link) paste0(readLines(link, warn = FALSE), collapse = "\n")

Что вы можете использовать следующим образом:

x <- get_txt("http://multimedia.globomatik.net/productsSheet/A0023294.txt")
x
#> [1] "<div class=\"std especificaciones content-section section-2\"><div class=\
#> "column-left\">\n\t\t\t\t<h3>General</h3>\n\t\t\t\t<table class=\"data-table\" i
#> d=\"product-attribute-specs-table-1\">\n\t\t\t\t\t<col width=\"25%\" />\n\t\t\t\
#> t\t<col />\n\t\t\t\t\t<tbody><tr>\n\t\t                   \t\t\t<th class=\"labe
#> l\" data-attribute-code=\"brands\">Marca</th>\t<td class=\"data\">WESTERN DIGITA
#> L </td>\n\t\t\t\t\t\t\t\t</tr><tr>\n\t\t                   \t\t\t<th class=\"lab
#> el\" data-attribute-code=\"warranty\">Garantía</th>\t<td class=\"data\">2 años
#>  de garantía</td>\n\t\t\t\t\t\t\t\t</tr><tr>\n\t\t                   \t\t\t<th 
#> class=\"label\" data-attribute-code=\"part_number\">Part Number</th>\t<td class=
#> \"data\">WDBWLG0060HBK-EESN </td>\n\t\t\t\t\t\t\t\t</tr><tr>\n\t\t ... <truncated>

Вы можете видеть, что это одна текстовая строка:

length(x)
#> [1] 1
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...