Скажем, у меня есть X документы, которые алгоритм / library / tika config / nekohtml фильтр скажет мне, какая из них является "статьей", а какая нет, а для тех, которые дают мне текст статьи (т.е. без другой окружающий текст).
Под статьей я подразумеваю кусок структурированного текста, состоящего по крайней мере из одного абзаца, и я думаю, что большинство читателей-людей могут отфильтровать их.
Самый простой способ, который я придумал, это обеспечить длину документа> Y, где Y будет, например, 350 слов.
Но это не самый надежный способ, поскольку могут быть очень длинные списки, например, и это не дает мне текст статьи.
Поиск тегов
не достаточно хорош.