Я делаю некоторую обработку естественного языка для новостных статей и хочу иметь возможность использовать расширение chrome для очистки только основного текста статьи с данного сайта.
Я пытался использовать некоторые библиотеки javascript, но нашел, что лучшей библиотекой для этого была библиотека Python под названием JusText . Могу ли я запустить python из расширения Chrome на стороне клиента? Я не хочу поддерживать сервер, если это не является абсолютно необходимым.
Библиотеки JavaScript, которые я пытался реализовать: unfluff и extract-main-text . Extract-main-text является непоследовательным / неточным, и я не могу отстраниться от работы (см. Код ниже).
Unfluff:
$.ajax({
url: currentUrl,
success: function(data) {
html_data = data;
}
});
var json = extractor(html_data, 'en');
console.log("Unfluff Text:");
console.dir(json);
Выводит правильно отформатированный, но пустой объект json. В нем должно быть заполнено большинство полей (заголовок, дата, автор, текст и т. Д.), Но это не так.
Итак, я что-то не так делаю с флефом? Есть ли способ использовать JusText и Python в браузере (преобразования Python-> JavaScript)? Существуют ли другие инструменты для извлечения основного текста для Интернета, которые я должен рассмотреть?