Разбор HTML-строки из MySQL в Newspaper3k - PullRequest
0 голосов
/ 04 сентября 2018

У меня есть таблица MySQL, заполненная данными HTML для просканированной новостной статьи. Я хотел бы извлечь тексты статей с помощью модуля magazine3k, что я делал много раз раньше.

Единственное отличие состоит в том, что я не извлекаю URL и не анализирую результат с помощью газеты, а извлекаю необработанные строки HTML из БД MySQL.

Каким-то образом газете (или Goose) не нравится строка из БД, поскольку возвращаемый article.text всегда равен ''.

Однако, когда я использую URL с запросами Так что я предполагаю, что данные из MySQL отформатированы / закодированы по-разному, чтобы газета не воспринимала их как HTML?!

Когда я печатаю данные из БД, это выглядит так:

<!DOCTYPE html>\n<html lang="de">\n<head>\n\n<...

В то время как html viaques.get выглядит так:

<!DOCTYPE html>
<html lang="de">
<head>

<meta charset="utf-8">
<!-- 
    This website is powered by TYPO3 - inspiring people to share!
    TYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.
    TYPO3 is copyright 1998-2016 of Kasper Skaarhoj. Extensions are copyright of their respective owners.
    Information and contribution at http://typo3.org/
--> ...

Ответы [ 2 ]

0 голосов
/ 17 сентября 2018

Я решил это сам. Спасибо всем.

Оказалось, мне просто нужно было использовать BeautifulSoup на HTML из базы данных. разделить это как суп. Теперь это работает.

0 голосов
/ 04 сентября 2018

Вы получаете заголовок страницы TYPO3. Возможно страница по умолчанию 404. (получите полный HTML)

Если ваш запрос должен обслуживаться чем-либо еще, кроме TYPO3, вы пропускаете конфигурацию (htaccess-) (по умолчанию TYPO3 отвечает на каждый запрос, пока нет статического файла с путем URL-запроса)

Или вы ожидаете, что сервер TYPO3 ответит вам чем-то, кроме полной страницы (AJAX: HTML-фрагмент или JSON?)?
Тогда у вас, вероятно, неверная конфигурация в TYPO3, чтобы пропустить заголовки.

Поскольку TYPO3 задействован, вы можете пометить свой вопрос также TYPO3

...