У меня есть таблица MySQL, заполненная данными HTML для просканированной новостной статьи. Я хотел бы извлечь тексты статей с помощью модуля magazine3k, что я делал много раз раньше.
Единственное отличие состоит в том, что я не извлекаю URL и не анализирую результат с помощью газеты, а извлекаю необработанные строки HTML из БД MySQL.
Каким-то образом газете (или Goose) не нравится строка из БД, поскольку возвращаемый article.text всегда равен ''
.
Однако, когда я использую URL с запросами Так что я предполагаю, что данные из MySQL отформатированы / закодированы по-разному, чтобы газета не воспринимала их как HTML?!
Когда я печатаю данные из БД, это выглядит так:
<!DOCTYPE html>\n<html lang="de">\n<head>\n\n<...
В то время как html viaques.get выглядит так:
<!DOCTYPE html>
<html lang="de">
<head>
<meta charset="utf-8">
<!--
This website is powered by TYPO3 - inspiring people to share!
TYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.
TYPO3 is copyright 1998-2016 of Kasper Skaarhoj. Extensions are copyright of their respective owners.
Information and contribution at http://typo3.org/
--> ...