Как удалить HTML из метода доступа SAS URL? - PullRequest
0 голосов
/ 09 июня 2009

Какой самый удобный способ удалить все теги HTML при использовании метода доступа к URL-адресу SAS для чтения веб-страниц?

Ответы [ 2 ]

4 голосов
/ 09 июня 2009

Это должно делать то, что вы хотите. Удаляет все, что находится между <>, включая <>, и оставляет только контент (он же innerHTML).

Data HTMLData;

filename INDEXIN URL "http://www.zug.com/";

input;

textline = _INFILE_;

/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);

run;
0 голосов
/ 09 июня 2009

Я думаю, что методология заключается не в удалении HTML-кода со страницы, а в определении стандартных шаблонов для данных, которые вы пытаетесь захватить. Это методология типа Perl / регулярных выражений.

Примером могут служить некоторые данные или таблица, которые идут через столько символов после изображения логотипа. Вы можете написать скрипт для хранения только данных.

Если вы хотите опубликовать какой-нибудь html, возможно, мы поможем расшифровать его.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...