ОК, похоже, никто не может ответить на этот вопрос - тогда я должен сам проверить это.
jTidy
Я скачал последние источники jTidy, скомпилировал их и добавил созданный файл jar в качестве библиотеки в свое приложение для Android. В моем приложении не было проблем с использованием jTidy (эмулятор и реальный телефон). Во время выполнения jTidy также отлично работает - но кажется, что он не очень подходит для ограниченной среды Android - он работает очень медленно. Если посмотреть на вывод Logcat даже при анализе html-файла размером ~ 10 Кб, сборщик мусора будет работать очень интенсивно.
HTMLCleaner
Из моего опыта HTMLCleaner также хорошо работает на Android; Размер библиотеки относительно небольшой (106 КБ для v2.2). Однако созданный анализ DOM не такой, как ожидалось - HTMLCleaner вставляет, например, дополнительные элементы <span>
в DOM. Это может быть хорошо, если вы хотите отобразить его в виде файла HTML, но для моего случая использования - извлечение информации с помощью выражений XPath - это не нужно!
TagSoup
Не проверено
Иерихон
Не проверено
NekoHTML
Не проверено
JSoup
Не проверено