Question

Скажем, у меня есть X документы, которые алгоритм / library / tika config / nekohtml фильтр скажет мне, какая из них является "статьей", а какая нет, а для тех, которые дают мне текст статьи (т.е. без другой окружающий текст).

Под статьей я подразумеваю кусок структурированного текста, состоящего по крайней мере из одного абзаца, и я думаю, что большинство читателей-людей могут отфильтровать их.

Самый простой способ, который я придумал, это обеспечить длину документа> Y, где Y будет, например, 350 слов. Но это не самый надежный способ, поскольку могут быть очень длинные списки, например, и это не дает мне текст статьи. Поиск тегов

не достаточно хорош.

Mauricio Scheffer · Answer 1 · 06 апреля 2011

В зависимости от таких факторов, как пропускная способность, задержка, возможности подключения и другие нетехнические факторы, такие как деньги, если это легко и сложно сделать для людей, вам может потребоваться использовать Amazon Mechanical Turk определить HIT, чтобы отличить статью от других видов текста. Существует API для интеграции результатов HIT с вашим кодом.

marcorossi · Answer 2 · 06 апреля 2011

Вы можете использовать Boilerpipe , чтобы извлечь текст со страницы, а затем решить, является ли это статья, основанная на вашей эвристике, то есть длине статьи.Боюсь, что ваше решение все равно не сработает.Список отключенных элементов по-прежнему выглядит как список предложений.Вам нужно «понять» содержание.

Как определить, является ли документ статьей?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как определить, является ли документ статьей?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы