user407601 04 января 2011 37

Есть ли способ использовать читабельность (алгоритм извлечения текста) и пользовательский алгоритм в Python для извлечения ссылок из текста?

user407601 / 04 января 2011

Есть ли способ использовать читабельность (алгоритм извлечения текста) и собственный алгоритм в python для извлечения ссылок из текста?

Я хотел бы выяснить способ извлечения ссылок, которые находятся в телетекста.

1.) Я использую удобочитаемость в python https://github.com/gfxmonk/python-readability

2.) Я бы хотел как-то сравнить извлеченный текст с исходным HTML-текстом, чтобы извлечь ссылки вфактическое тело статьи.

1 Ответ

Thomas K / 04 января 2011

Ну, похоже, он возвращает дерево BeautifulSoup.Таким образом, вы должны быть в состоянии сделать что-то вроде:

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article

...