Как определить, является ли документ статьей? - PullRequest
0 голосов
/ 05 апреля 2011

Скажем, у меня есть X документы, которые алгоритм / library / tika config / nekohtml фильтр скажет мне, какая из них является "статьей", а какая нет, а для тех, которые дают мне текст статьи (т.е. без другой окружающий текст).

Под статьей я подразумеваю кусок структурированного текста, состоящего по крайней мере из одного абзаца, и я думаю, что большинство читателей-людей могут отфильтровать их.

Самый простой способ, который я придумал, это обеспечить длину документа> Y, где Y будет, например, 350 слов. Но это не самый надежный способ, поскольку могут быть очень длинные списки, например, и это не дает мне текст статьи. Поиск тегов

не достаточно хорош.

Ответы [ 2 ]

2 голосов
/ 06 апреля 2011

В зависимости от таких факторов, как пропускная способность, задержка, возможности подключения и другие нетехнические факторы, такие как деньги, если это легко и сложно сделать для людей, вам может потребоваться использовать Amazon Mechanical Turk определить HIT, чтобы отличить статью от других видов текста. Существует API для интеграции результатов HIT с вашим кодом.

2 голосов
/ 06 апреля 2011

Вы можете использовать Boilerpipe , чтобы извлечь текст со страницы, а затем решить, является ли это статья, основанная на вашей эвристике, то есть длине статьи.Боюсь, что ваше решение все равно не сработает.Список отключенных элементов по-прежнему выглядит как список предложений.Вам нужно «понять» содержание.

...