HtmlParser или любой другой анализатор HTML или XML не имеет никакой надежды на разбор PDF-файлов.HTML - это совершенно другой формат, чем формат PDF.
Вам нужно, чтобы программное обеспечение для сканирования веб-страниц обращало внимание на возвращаемые заголовки типов контента, которые удаленный веб-сервер возвращает, когда вы получаете документ.Это говорит о номинальном формате ресурса, который вы только что получили.Если тип содержимого - PDF или какой-либо другой формат, с которым не может справиться ваш экстрактор ссылок, вы не должны пытаться его анализировать.
На данный момент ваш код делает это:
parser.setResource ("http://hal.archives-ouvertes.fr" +
"/docs/00/16/76/78/PDF /27_Bendaoud.pdf");
Это нужно заменить чем-то, что устанавливает ресурс, используя уже открытый InputStream и т. Д.