Ваша лучшая ставка, вероятно, изменить то, как вы это делаете. Вместо того, чтобы получать текст и ссылки независимо, получайте их все одновременно. Для этого извлеките текстовое содержимое из Tika как XHTML, а не как текст, с чем-то вроде:
StringWriter sw = new StringWriter();
SAXTransformerFactory factory = (SAXTransformerFactory)
SAXTransformerFactory.newInstance();
TransformerHandler handler = factory.newTransformerHandler();
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "xml");
handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "no");
handler.setResult(new StreamResult(sw));
parser.parse(input, handler, metadata, new ParseContext());
String xhtml = sw.toString();
Как только у вас появится XHTML, просмотрите ссылки и изображения. Когда вы их найдете, вы точно будете знать, куда идут вещи относительно окружающего текста.