у меня есть индекс в упругом поиске, в котором есть URL, мне нужно использовать Apache Tika для извлечения URL, так как всякий раз, когда я запускаю Java-приложение, оно должно давать мне веб-страницу, для которой предназначен URL,
Я попробовал код, но я получаю простой текст, который написан в этом URL в формате HTML
HttpGet httpget = new HttpGet("url");
HttpEntity entity = null;
HttpClient client = new DefaultHttpClient();
HttpResponse response = client.execute(httpget);
entity = response.getEntity();
if (entity != null) {
InputStream instream = entity.getContent();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse( instream, handler, metadata, new ParseContext());
String plainText = handler.toString();
FileWriter writer = new FileWriter( "./tessdata/output.html");
writer.write( plainText );
writer.close();
System.out.println( "done");
}
Я ожидаю, что при запуске Java-приложения будет отображаться точная веб-страница.
например, если я нажму на google.com в URL, при запуске приложения я должен получить страницу google