Просматривать только HTML-страницу при проверке заголовка ответа - PullRequest
0 голосов
/ 09 июля 2011

Я пытаюсь получить все URL-адреса с заголовком в виде Content-Type: text / html, поэтому я проверяю заголовок ответа каждого URL-адреса и, если у них есть content-type: text / html, я хочу напечатать это.URL-адрес с типом содержимого: text / html.Но в моем коде, когда я проверяю, что если заголовок имеет Content-Type, он ничего не отображает .. И если я удаляю цикл if, он печатает каждую ссылку, связанную с этим конкретным URL, который я хочу сканировать, и их заголовок ответа...

public class MyCrawler extends WebCrawler {

    Pattern filters = Pattern.compile(".*(\\.(css|js|bmp|gif|jpe?g"
            + "|png|tiff?|mid|mp2|mp3|mp4" + "|wav|avi|mov|mpeg|ram|m4v|pdf"
            + "|rm|smil|wmv|swf|wma|zip|rar|gz))$");


    /*
    Pattern filters = Pattern.compile("(\\.(html))");
*/
    public MyCrawler() {
    }

    public boolean shouldVisit(WebURL url) {
        String href = url.getURL().toLowerCase();
        //System.out.println("Href: " +href);
        /*
        if (filters.matcher(href).matches()) {
            return false;
        }*/
        if (href.startsWith("http://www.somehost.com/")) {
            return true;
        }
        return false;
    }

    public void visit(Page page) {

        int docid = page.getWebURL().getDocid();

        String url = page.getWebURL().getURL();         
        String text = page.getText();
        List<WebURL> links = page.getURLs();
        int parentDocid = page.getWebURL().getParentDocid();


        //HttpGet httpget = new HttpGet(url);


        try {
            URL url1 = new URL(url);
            URLConnection connection = url1.openConnection();

            Map responseMap = connection.getHeaderFields();
      for (Iterator iterator = responseMap.keySet().iterator(); iterator.hasNext();) 
     {
                String key = (String) iterator.next();
                if(key==("Content-Type")) //(Anything wrong with this if loop)
                {
                System.out.print(key + " = ");

                List values = (List) responseMap.get(key);
                for (int i = 0; i < values.size(); i++) {
                    Object o = values.get(i);
                    System.out.print(o + ", ");
                }
                System.out.println("");
System.out.println(url1);
                }

            }
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }


        //System.out.println("Docid: " + docid);
        //System.out.println("URL: " + url);
        //System.out.println("Text length: " + text.length());
        //System.out.println("Number of links: " + links.size());
        //System.out.println("Docid of parent page: " + parentDocid);
        System.out.println("=============");
    }   
}

Ответы [ 3 ]

2 голосов
/ 09 июля 2011

Переменная key содержит:

Content-Type=[text/html; charset=ISO-8859-1]

и поэтому не может быть поймана с помощью == или .equals("Content-Type")

Если вы попытаетесь запустить следующий код, посмотрите, что он печатает

URLConnection connection = url1.openConnection();

Map responseMap = connection.getHeaderFields();
Iterator iterator = responseMap.entrySet().iterator();
while (iterator.hasNext())
{
    String key = iterator.next().toString();
    if (key.contains("Content-Type"))
    {
        System.out.println(key);
        // Content-Type=[text/html; charset=ISO-8859-1]
        if (filters.matcher(key) != null){
            System.out.println(url1);
            // http://google.com
        }
    }
}

Вот вывод:

Content-Type=[text/html; charset=ISO-8859-1]
http://google.com

Похоже, вы также можете просто сделать с одним оператором if какследующее:

while (iterator.hasNext())
{
    String key = iterator.next().toString();
    if (key.contains("text/html"))
    {
        System.out.println(url1);
        // http://google.com
    }
}

Кстати, сравнение строк в Java очень интуитивно понятно , получает меня постоянно!

0 голосов
/ 09 июля 2011

Должно работать с

if (key != null && key.equals("Content-Type"))
0 голосов
/ 09 июля 2011

Для сравнения строк используйте .equals().

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...