Question

Я пишу приложение в Java, мне нужно получить определенные данные с веб-сайта. Я не знаю, какой из них использовать: REGEX или Parser. Может кто-нибудь, пожалуйста, посоветуйте мне, как это сделать? и какой из них предпочтительнее.

Спасибо

R0MANARMY · Answer 1 · 25 марта 2010

Я полагаю, что выбор вполне таков: "Даже Джон Скит не может анализировать HTML с помощью регулярных выражений." . В зависимости от того, насколько сложна информация, которую вы пытаетесь извлечь из html, вам может быть лучше использовать какой-то парсер. Что вы хотите вытащить и откуда?

YOU · Answer 2 · 25 марта 2010

Определенно, получите HTML парсер

Здесь - сравнение некоторых немногих анализаторов Java HTML.

Некоторые из них здесь

NekoHTML:

final DOMParser parser = new DOMParser();
try {
    parser.parse(new InputSource(urlIS));
    document = parser.getDocument();
} catch (SAXException e) {
    e.printStackTrace();
} catch (IOException e) {
    e.printStackTrace();
}

TagSoup:

final Parser parser = new Parser();
SAX2DOM sax2dom = null;
try {
    sax2dom = new SAX2DOM();
    parser.setContentHandler(sax2dom);
    parser.setFeature(Parser.namespacesFeature, false);
    parser.parse(new InputSource(urlIS));
} catch (Exception e) {
    e.printStackTrace();
}
document = sax2dom.getDOM();

По поводу парсера DOM и REGEX

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

По поводу парсера DOM и REGEX

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов