Явные специальные символы от сканирования - PullRequest
0 голосов
/ 08 января 2019

Работа на Storm Crawler 1.13 и упругий поиск 6.5.2. Как запретить сканеру сканировать / индексировать специальные символы � � � � � ��� �� � •

1 Ответ

0 голосов
/ 09 января 2019

Простой способ сделать это - написать ParseFilter наподобие

        ParseData pd = parse.get(URL);
        String text = pd.getText();
        // remove chars
        pd.setText(text);

Это будет вызвано для документов, проанализированных JSoup или Tika. Посмотрите на фильтры разбора в репозитории для примеров.

...