Парсинг новостей URL с удобочитаемостью - PullRequest
0 голосов
/ 09 февраля 2019

Я пытаюсь автоматизировать извлечение данных из новостных URL с помощью чего-то вроде https://zapier.com или https://ifttt.com.

Основная цель - получить красивую версию текста новостных URL вэлектронная таблица Google.Попытка использовать функцию типа importXML не удалась, потому что мне нужно анализировать URL с разными структурами.

Я думал о том, чтобы использовать что-то вроде readability.js https://code.google.com/archive/p/arc90labs-readability/downloads, чтобы получить HTML в красивый текст, поскольку zapier допускает фрагменты кода в javascript или python.

Проблема в том,В Zapier вы не можете использовать модули, которые не являются стандартными для этих языков программирования (например, Beautifulsoup), чтобы очистить URL-адреса.

Есть ли шанс, что я смогу передать URL-адрес к коду readability.js https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/arc90labs-readability/readability.js или сделать вызов API для https://mercury.postlight.com/web-parser/, который возвращает симпатичный текст?

1 Ответ

0 голосов
/ 11 февраля 2019

Дэвид здесь, из команды Zapier Platform.Да, это вполне возможно!

Сегодня проще всего сделать POST-запрос к парсеру Mercury, который вернет информацию о статье.Это будет работать в течение нескольких месяцев (пока их API не отключится ).Тем не менее, они открыли исходный код своего кода, поэтому, если они вам нравятся (и мне это нравится!), Вы можете обернуть их библиотеку в одноразовое CLI-приложение , и Zapier запустит их код для вас.Если честно, я, вероятно, скоро сделаю это для себя, и вы можете использовать это, если хотите!Я обновлю этот ответ, когда он будет готов.

...