Какие методы, связанные с искусственным интеллектом (ИИ), можно использовать для анализа веб-страницы? - PullRequest
1 голос
/ 10 октября 2011

Я хотел бы почистить несколько разных дискуссионных форумов, большинство из которых имеют разные форматы HTML. Вместо того, чтобы разбирать HTML для каждой страницы, было бы более эффективно (и интересно) реализовать своего рода алгоритм обучения, который мог бы идентифицировать различные сообщения (то есть структуры) на каждой странице, и индивидуально анализировать их, одновременно игнорируя всю постороннюю чушь (т.е. реклама и прочая ерунда). Может кто-нибудь указать мне некоторые ссылки или примеры кода для работы, которая уже была выполнена в этой области.

Кроме того, кто-нибудь знает о псевдокоде для кода читабельности Arc90?

http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/

Ответы [ 3 ]

2 голосов
/ 03 ноября 2011

создайте решение, которое:

  • использует несколько примеров веб-страниц с одинаковой структурой (например, темы форума)
  • анализирует дерево DOM каждой из них, чтобы определить, какие части совпадают /разные
  • где они различаются - это динамический контент, который вы ищете (сообщения, имена пользователей и т. д.)

Этот метод известен как индукция оболочки .

1 голос
/ 10 октября 2011

Кажется, есть порт Python из скрипта читабельности arc90 , который может указать вам правильное направление (или, по крайней мере, какое-то направление).

0 голосов
/ 10 октября 2011

Может быть, не совсем правильно, но есть книга О'Рейли под названием «Коллективный разум», которая может привести вас в правильном направлении к тому, что вы пытаетесь сделать. Кроме того, многие примеры написаны на python:)

...