Я тестирую Apache Tika REST Api через python для анализа HTML-файлов.Все работает, кроме одной вещи.Внутренняя часть тегов <noscript>
также анализируется как текст, и у меня есть некоторый контент в стиле CSS, который нежелателен.Также извлекается тело <div style="display:none">
.Есть ли способ занести в черный список некоторые html-тэги в API отдыха Tika?