Я использую JSoup для разбора веб-страницы, например this , и превращения ее в два строковых массива, по одному для каждого из текстовых значений элементов (для отображения в ListActivity) и один для ссылок.,Некоторые из этих текстовых значений имеют специальные символы, которые jsoup не может обработать.сначала я использовал:
Document doc = Jsoup.connect(URL).get();
maintable = doc.select(".kader").first();
, чтобы получить элемент для таблицы с содержимым.в другой теме здесь кто-то сказал, что он будет работать с использованием Jsoup.parse (html), поэтому я изменил его на следующее:
Document doc = Jsoup.connect(URL).get();
Document DOC = Jsoup.parse(doc.html());
if(doc.select(".kader") != null){
maintable = DOC.select(".kader").first();
}
, однако, похоже, это тоже не сработало.поэтому я оставил это как-то позже, чтобы решить (здесь, возможно), но это не моя главная проблема.если я пытаюсь получить массив String со всеми ссылками, отображаемыми в основном контенте, я бы использовал этот метод:
public String[] getTranslationLinks(){
String[] items = new String[alllinks.size()];
Element tempelement;
for(int i = 0;i<items.length;i++){
tempelement = alllinks.get(i);
items[i] = tempelement.attr("abs:href");
}
return items;
}
, отладчик говорит, что tempelement содержит правильный элемент, но по какой-то причине .attr ("abs: href") не возвращает ссылку в соответствии с запросом.Например, tempelement будет содержать:
<a href="./vertaling.php?id=6518" target="_top" title="">Hoofdstuk 3, tekst A: Herakles de slaaf</a>
, но .attr (abs: href) возвращает "".
Кто-нибудь из вас знает способ решения этих проблем?