Я говорю не о тегах HTML, а о тегах, используемых для описания сообщений в блогах, видео на YouTube или вопросов на этом сайте.
Если бы я сканировал только один веб-сайт, я бы просто использовалxpath для извлечения тега или даже регулярное выражение, если это просто.Но я хотел бы иметь возможность создавать любую веб-страницу в моей функции extract_tags () и получать перечисленные теги.
Я могу представить себе использование простой эвристики, такой как поиск всех элементов HTML с идентификатором или классом 'tag 'и т. д. Однако, это довольно хрупко и, вероятно, потерпит неудачу для огромного количества веб-страниц.Какой подход вы, ребята, рекомендуете для этой проблемы?
Кроме того, мне известны Zemanta и Open Calais, у которых есть способы угадать теги для фрагмента текста, но на самом деле это не то же самое, что извлечениеТэги настоящие люди уже выбрали.Но я все равно хотел бы услышать о любых других сервисах / API, чтобы угадать теги в документе.
РЕДАКТИРОВАТЬ: Просто чтобы быть ясно, решение, которое уже работает для этого, было бы здорово.Но я предполагаю, что нет программного обеспечения с открытым исходным кодом, которое уже делает это, поэтому я просто хочу услышать от людей о возможных подходах, которые могут работать в большинстве случаев.Это не обязательно должно быть идеально.
EDIT2: Для людей, предлагающих общее решение, которое обычно работает, невозможно, и что я должен написать пользовательские скребки для каждого веб-сайта / движка, рассмотрите инструмент читаемости arc90 ,Этот инструмент способен извлекать текст статьи для любой данной статьи в Интернете с удивительной точностью, используя некоторый эвристический алгоритм, который я считаю.Мне еще предстоит углубиться в их подход, но он вписывается в букмарклет и не кажется слишком сложным.Я понимаю, что извлечь статью, вероятно, проще, чем извлечь теги, но она должна служить примером того, что возможно.