Библиотеки / Инструменты для разбора сайтов - PullRequest
1 голос
/ 12 сентября 2010

Я хотел бы начать работать с анализом большого количества необработанных HTML-страниц в семантических структурах данных.

Просто интересует мнение сообщества о различных доступных инструментах для такой задачи, особенно о различных полезных библиотеках на любом языке.

Пока что планируем использовать Hadoop для управления большой частью обработки, но любопытно узнать об альтернативах.

1 Ответ

0 голосов
/ 16 января 2012

Сначала вам нужно скачать исходный код вашей страницы, а затем создать дерево DOM.если вы кодируете в C #, вы можете использовать следующие инструменты для создания своего дерева DOM.

1) http://htmlagilitypack.codeplex.com/2) http://www.majestic12.co.uk/projects/html_parser.php

первый прост в использовании, но второй намного быстрее и удобнее для памяти, и я предлагаю вам использовать второй, если вы хотите создать надежное приложение

затем вы можете извлечь полезный контент с веб-страницы, используя:

http://www.chrisspen.com/blog/how-to-extract-a-webpages-main-article-content.html

и многие другие статьи, которые вы можете найти для извлечения контента с веб-страницы с помощью Google (извлечение основного контента с веб-страницы)

Надеюсь, это поможет

...