извлекать полезные данные из произвольных HTML-страниц? - PullRequest
1 голос
/ 31 января 2010

есть ли библиотека для ruby ​​или php, которая может анализировать html-страницы и извлекать уникальные данные, сравнивая их с другими похожими страницами .... следует использовать какой-то вид интеллектуального анализа текста, чтобы определить, какие тексты с большей вероятностью являются помехами и повторяемостью тогда как другие тексты более уникальны и полезны ...

1 Ответ

2 голосов
/ 31 января 2010

Я парень по PHP, понятия не имею о Ruby, но я думаю, что то, что вы хотите, тривиально для архивирования:

  • Используйте что-то вроде Простой HTML DOM для анализа страниц.
  • Для каждой страницы сравните все элементы DOM.
  • Получите путь ко всем элементам, имеющим разное содержимое, это будет ваш сигнал элементов.
...