проблема чтения тега <TITLE>с веб-страницы в Java - PullRequest
1 голос
/ 14 мая 2011

Я использую анализатор jtidy для анализа веб-страницы.Он работает, вроде:

InputStream in=new URL("http://www.medicinenet.com/alopecia_areata/article.htm").openStream();
Document doc= new Tidy().parseDOM(in, null);
String titleText=doc.getElementsByTagName("title").item(0).getFirstChild().getNodeValue();

Он отлично работает для <title>...</title>, но URL-адрес, который я передал, содержит заглавный тег <TITLE>...</TITLE> заглавной буквой.Так что возвращается ноль.

Как читать <TITLE>...</TITLE> & <title>...</title> в одном выражении, используя код Java?Пожалуйста, помогите мне.

1 Ответ

1 голос
/ 14 мая 2011

Просто проверьте на ноль, затем проверьте прописные буквы

String titleText=doc.getElementsByTagName("title").item(0).getFirstChild().getNodeValue();
if (titleText == null) titleText=doc.getElementsByTagName("TITLE").item(0).getFirstChild().getNodeValue();

getElementsByTagName чувствителен к регистру, так что это самый простой вариант.

...