Работа над Android SDK - это Java, но не все.
У меня есть решение, которое извлекает два шаблона регулярных выражений из веб-страниц. Проблемы у меня в том, что он находит вещи внутри тегов HTML. Я попробовал jTidy, но это было слишком медленно на Android. Не знаю, почему, но мое решение для сопоставления регулярных выражений в Сканере взбивает его много раз.
В настоящее время я беру источник страницы в IntputStream
is = uconn.getInputStream();
и сопоставить и извлечь, как это:
Scanner scanner = new Scanner(in, "UTF-8");
String match = "";
while (match != null) {
match = scanner.findWithinHorizon(extractPattern, 0);
if (match != null) {
String matchit = scanner.match().group(grp);
это работает очень хорошо и быстро.
Мой шаблон регулярных выражений уже довольно сумасшедший, на самом деле два шаблона в или вроде этого (p1 | p2)
Есть идеи, как мне это сделать ", но не внутри тегов HTML" или исключить теги HTML в начале?
Если я могу исключить теги HTML из моего источника, это, вероятно, значительно ускорит мой интерфейс, поскольку у меня есть несколько других вещей, которые мне нужно сделать с необработанными данными.