Довольно взволнован этой утилитой, но сталкиваюсь с некоторыми проблемами с реализацией. Установил его, но не получил результата при выполнении HTML-файла на сервере. Синтаксическая ошибка в коде URL.
<script LANGUAGE="JavaScript" SRC="boilerpipe-1.1.0.jar">
</script>
<script type="text/javascript">
URL url = new URL("http://www.mywebsite.com");
var text = ArticleExtractor.INSTANCE.getText(url);
document.write(text);
</script>
РЕДАКТИРОВАТЬ =====> Этот код, похоже, сработал.
<?php
$html = file_get_contents("http://www.google.com");
?>
<script language="JavaScript" src="boilerpipe-1.1.0.jar"></script>
<script language="javascript" type="text/javascript">
var sStr = "<?php echo $html?>";
var text = ArticleExtractor.INSTANCE.getText(sStr);
document.write(text);
?>