Есть ли способ использовать читабельность (алгоритм извлечения текста) и собственный алгоритм в python для извлечения ссылок из текста?
Я хотел бы выяснить способ извлечения ссылок, которые находятся в телетекста.
1.) Я использую удобочитаемость в python https://github.com/gfxmonk/python-readability
2.) Я бы хотел как-то сравнить извлеченный текст с исходным HTML-текстом, чтобы извлечь ссылки вфактическое тело статьи.
Ну, похоже, он возвращает дерево BeautifulSoup.Таким образом, вы должны быть в состоянии сделать что-то вроде:
article = page.summary() # Extract article using readability article.findAll("a") # Return a list of all links in the article