По поводу парсера DOM и REGEX - PullRequest
0 голосов
/ 25 марта 2010

Я пишу приложение в Java, мне нужно получить определенные данные с веб-сайта. Я не знаю, какой из них использовать: REGEX или Parser. Может кто-нибудь, пожалуйста, посоветуйте мне, как это сделать? и какой из них предпочтительнее.

Спасибо

Ответы [ 2 ]

1 голос
/ 25 марта 2010

Я полагаю, что выбор вполне таков: "Даже Джон Скит не может анализировать HTML с помощью регулярных выражений." . В зависимости от того, насколько сложна информация, которую вы пытаетесь извлечь из html, вам может быть лучше использовать какой-то парсер. Что вы хотите вытащить и откуда?

1 голос
/ 25 марта 2010

Определенно, получите HTML парсер

Здесь - сравнение некоторых немногих анализаторов Java HTML.

Некоторые из них здесь

NekoHTML:

final DOMParser parser = new DOMParser();
try {
    parser.parse(new InputSource(urlIS));
    document = parser.getDocument();
} catch (SAXException e) {
    e.printStackTrace();
} catch (IOException e) {
    e.printStackTrace();
}

TagSoup:

final Parser parser = new Parser();
SAX2DOM sax2dom = null;
try {
    sax2dom = new SAX2DOM();
    parser.setContentHandler(sax2dom);
    parser.setFeature(Parser.namespacesFeature, false);
    parser.parse(new InputSource(urlIS));
} catch (Exception e) {
    e.printStackTrace();
}
document = sax2dom.getDOM();
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...