Есть ли способ использовать читабельность (алгоритм извлечения текста) и пользовательский алгоритм в Python для извлечения ссылок из текста? - PullRequest
0 голосов
/ 04 января 2011

Есть ли способ использовать читабельность (алгоритм извлечения текста) и собственный алгоритм в python для извлечения ссылок из текста?

Я хотел бы выяснить способ извлечения ссылок, которые находятся в телетекста.

1.) Я использую удобочитаемость в python https://github.com/gfxmonk/python-readability

2.) Я бы хотел как-то сравнить извлеченный текст с исходным HTML-текстом, чтобы извлечь ссылки вфактическое тело статьи.

1 Ответ

2 голосов
/ 04 января 2011

Ну, похоже, он возвращает дерево BeautifulSoup.Таким образом, вы должны быть в состоянии сделать что-то вроде:

article = page.summary()   # Extract article using readability
article.findAll("a")       # Return a list of all links in the article
...