Apache Tika исключает некоторые HTML-теги - PullRequest
0 голосов
/ 22 февраля 2019

Я тестирую Apache Tika REST Api через python для анализа HTML-файлов.Все работает, кроме одной вещи.Внутренняя часть тегов <noscript> также анализируется как текст, и у меня есть некоторый контент в стиле CSS, который нежелателен.Также извлекается тело <div style="display:none">.Есть ли способ занести в черный список некоторые html-тэги в API отдыха Tika?

1 Ответ

0 голосов
/ 01 марта 2019

У меня нет немедленного решения, но запрос кажется разумным, поэтому, пожалуйста, откройте вопрос в нашей JIRA для обсуждения командой: https://issues.apache.org/jira/projects/TIKA/summary

...