извлечение URL с использованием Apache Tika - PullRequest
0 голосов
/ 09 июля 2019

у меня есть индекс в упругом поиске, в котором есть URL, мне нужно использовать Apache Tika для извлечения URL, так как всякий раз, когда я запускаю Java-приложение, оно должно давать мне веб-страницу, для которой предназначен URL,

Я попробовал код, но я получаю простой текст, который написан в этом URL в формате HTML

HttpGet httpget = new HttpGet("url");
HttpEntity entity = null;
HttpClient client = new DefaultHttpClient();
HttpResponse response = client.execute(httpget);
entity = response.getEntity();
if (entity != null) {
    InputStream instream = entity.getContent();
    BodyContentHandler handler = new BodyContentHandler();
    Metadata metadata = new Metadata();
    Parser parser = new AutoDetectParser();
    parser.parse( instream, handler, metadata, new ParseContext());
    String plainText = handler.toString();
    FileWriter writer = new FileWriter( "./tessdata/output.html");
    writer.write( plainText );
    writer.close();
    System.out.println( "done");
}

Я ожидаю, что при запуске Java-приложения будет отображаться точная веб-страница. например, если я нажму на google.com в URL, при запуске приложения я должен получить страницу google

...