HTML Agility Pack против регулярных выражений - PullRequest
2 голосов
/ 10 февраля 2010

Если я создаю простой веб-скребок (из корневого URL-адреса, получить все ссылки, а затем из этих ссылок получить все электронные письма), стоит ли использовать HTML Agility Pack? На самом деле я не просматриваю теги HTML, я просто просматриваю электронные письма во всем документе.

Было бы эффективнее использовать пакет гибкости HTML?

Я вычеркиваю их строго, потому что это необходимо, у меня есть эти электронные письма, и там есть около 100 ссылок. Только около 500 электронных писем будут очищены. Не беспокойтесь, я имею в виду этику здесь.

1 Ответ

2 голосов
/ 10 февраля 2010

Есть много вопросов на SO по этому поводу - большинство из тех, что я прочитал, - не используют регулярные выражения для удаления из Интернета.

С другой стороны - если вам нужен только синтаксический анализ текста независимо от характера текста в HTML (что вы делаете, если я вас правильно понимаю), может быть лучше использовать регулярные выражения.

...