Есть ли способ получить основной текст из любой статьи на сайте через расширение Chrome? - PullRequest
0 голосов
/ 01 апреля 2019

Я делаю некоторую обработку естественного языка для новостных статей и хочу иметь возможность использовать расширение chrome для очистки только основного текста статьи с данного сайта.

Я пытался использовать некоторые библиотеки javascript, но нашел, что лучшей библиотекой для этого была библиотека Python под названием JusText . Могу ли я запустить python из расширения Chrome на стороне клиента? Я не хочу поддерживать сервер, если это не является абсолютно необходимым.

Библиотеки JavaScript, которые я пытался реализовать: unfluff и extract-main-text . Extract-main-text является непоследовательным / неточным, и я не могу отстраниться от работы (см. Код ниже).

Unfluff:

      $.ajax({
          url: currentUrl,
          success: function(data) {
              html_data = data;
          }
      });

      var json = extractor(html_data, 'en');
      console.log("Unfluff Text:");
      console.dir(json);

Выводит правильно отформатированный, но пустой объект json. В нем должно быть заполнено большинство полей (заголовок, дата, автор, текст и т. Д.), Но это не так.

Итак, я что-то не так делаю с флефом? Есть ли способ использовать JusText и Python в браузере (преобразования Python-> JavaScript)? Существуют ли другие инструменты для извлечения основного текста для Интернета, которые я должен рассмотреть?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...