Любой другой парсер вместо Jsoup? - PullRequest
0 голосов
/ 15 августа 2011

Какой маленький , легкий синтаксический анализатор лучше использовать, если Jsoup.parse в моем случае просто вылетает из-за размера файла

мой код не важен здесь, но здесь:

            Document doc = Jsoup.parse(html);

            Element table = doc.getElementsByTag("table");
            return table;

ОК, это на самом деле работает, но есть разница, если я запускаю этот код на ПК (виртуальная машина dalvik) или на устройстве Android (разрабатывается для ОС Android). Я не уверен, в чем именно проблема, но кажется, что память (размер кучи) больше на устройстве, но я пока не проверял - это только предположение. Итак, что я могу сказать о Jsoup - это, я думаю, самая быстрая и самая маленькая библиотека, которая подходит для моего случая для анализа и очистки чистого HTML-кода на основе DOM. Если вам нужно извлечь часть HTML из тегов (tr, table, ... и т. Д.), То Jsoup - лучший из возможных анализаторов HTML с открытым исходным кодом. И при применении его в коде нужны только две строки, как показано в примере выше. Результат, который вы получите после получения elemnets или извлечения некоторой части HTML-кода, представляет собой простую строку, содержащую теги, которые вы выбрали с помощью Jsoup. Я уверен, что он обладает большей функциональностью, но никогда не использовал ничего более сложного.

1 Ответ

1 голос
/ 15 августа 2011

я предполагаю, что вы пытаетесь разобрать html, попробуйте Jericho

...