Извлечение содержимого статьи HTML - альтернатива Alchemy API - PullRequest
7 голосов
/ 08 ноября 2010

Я провел много исследований, чтобы выяснить, как лучше всего написать код приложения, чтобы получить основной контент статьи практически с любой веб-страницы HTML. У меня есть программа на C, которая использует libxml2 для анализа XML, но я натолкнулся на Alchemy API, который, кажется, делает то, что я хочу.

Тем не менее, он имеет только онлайн-API, и я хотел оставить приложение внутри компании, не полагаясь на внешние вызовы.

Так у кого-нибудь есть советы? Я надеялся на автономную альтернативу, которая делает то, что может делать API Alchemy (платный / неоплачиваемый).

Моя альтернатива может состоять в том, чтобы просто анализировать HTML и использовать методы NLP (Natural Language Processing) и другие методы, чтобы получить основной контент статьи. Типы веб-сайтов, которые будут использоваться, включают веб-сайты с разделом новостей или блогом.

Ответы [ 2 ]

4 голосов
/ 08 мая 2011

есть несколько инструментов с открытым исходным кодом, которые выполняют похожие задачи извлечения статей.https://github.com/jiminoc/goose, который был открытым исходным кодом Gravity.com

Он содержит информацию о вики, а также источник, который вы можете просмотреть.Существуют десятки юнит-тестов, которые показывают текст, извлеченный из различных статей.

0 голосов
/ 08 августа 2013

AlchemyAPI также предлагает локальное решение, так что вам не нужно получать к нему доступ онлайн.Как правило, наши клиенты, использующие локальные решения, используют его, если у них есть особые требования к безопасности или задержке.Более подробную информацию о локальных решениях можно найти здесь: http://www.alchemyapi.com/products/on-premise/

...