Question

Я хотел бы начать работать с анализом большого количества необработанных HTML-страниц в семантических структурах данных.

Просто интересует мнение сообщества о различных доступных инструментах для такой задачи, особенно о различных полезных библиотеках на любом языке.

Пока что планируем использовать Hadoop для управления большой частью обработки, но любопытно узнать об альтернативах.

Ehsan · Answer 1 · 16 января 2012

Сначала вам нужно скачать исходный код вашей страницы, а затем создать дерево DOM.если вы кодируете в C #, вы можете использовать следующие инструменты для создания своего дерева DOM.

1) http://htmlagilitypack.codeplex.com/2) http://www.majestic12.co.uk/projects/html_parser.php

первый прост в использовании, но второй намного быстрее и удобнее для памяти, и я предлагаю вам использовать второй, если вы хотите создать надежное приложение

затем вы можете извлечь полезный контент с веб-страницы, используя:

http://www.chrisspen.com/blog/how-to-extract-a-webpages-main-article-content.html

и многие другие статьи, которые вы можете найти для извлечения контента с веб-страницы с помощью Google (извлечение основного контента с веб-страницы)

Надеюсь, это поможет

Библиотеки / Инструменты для разбора сайтов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Библиотеки / Инструменты для разбора сайтов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы