Question

Я несколько дней пытался продвинуться вперед с этим небольшим кодом для получения заголовков и ссылок новостей с веб-сайта журнала.

using HTTP
function website_parser(website_url::AbstractString)
r = readstring(get(website_url))
splitted = split(r, "\n")
end

website_parser("https://www.nature.com/news/newsandviews")

Проблема в том, что я не мог понять, как поступить, как только получил текст с сайта. Как я могу получить определенные элементы (как заголовок и ссылка на новость в этом случае)?

Любая помощь очень ценится, спасибо

phg · Answer 1 · 28 апреля 2018

Вам нужен какой-то разбор HTML. Только для извлечения заголовка вы, вероятно, можете использовать регулярные выражения, которые встроены в .

Если все становится сложнее, регулярные выражения не обобщают , и вам следует использовать полноценный HTML-парсер. Gumbo.jl кажется современным в Юлии и имеет довольно простой интерфейс.

В последнем случае нет необходимости разбивать документ; в первом случае, по крайней мере, все усложняется, так как тогда вы должны думать о переносе строк. Так что лучше разбери сначала, потом разделись.

Юля: соскоб с сайта?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Юля: соскоб с сайта?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы