Как обнаружить разные типы данных внутри HTML-страницы? - PullRequest
1 голос
/ 09 апреля 2011

Каков наилучший способ определения типов данных внутри html-страницы с использованием Java-функций DOM API, регулярных выражений и т. Д.Я хотел бы обнаружить типы, такие как плагин Skype для номеров телефона / Skype, похожие на адреса, электронные письма, время и т. Д.

Ответы [ 2 ]

2 голосов
/ 09 апреля 2011

«Типы» - неподходящий термин для той информации, на которую вы ссылаетесь.Выбор DOM API или регулярного выражения зависит от структуры информации на странице.

Если вы знаете структуру (например, таблицы, используемые для отображения информации, вы уже знаете, в какой ячейке вы можете найти номер телефона ив какой ячейке вы можете найти адрес электронной почты), имеет смысл использовать API DOM.

В противном случае вы должны использовать регулярное выражение для простого текста HTML, не анализируя его.

0 голосов
/ 09 апреля 2011

Я бы использовал регулярные выражения в следующем порядке:

  1. Извлечение только содержимого тела
  2. Удалите все теги, чтобы оставить только простой текст
  3. Соответствуйте соответствующим шаблонамв тексте

Конечно, это предполагает, что разметка не предоставляет подсказки, и что вы просто извлекаете данные, а не изменяете контекст страницы.

Надеюсь, это поможет,

Фил Лелло

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...