Использование обработки естественного языка для разбора сайтов - PullRequest
3 голосов
/ 29 октября 2011

В целом я заинтересован в извлечении данных путем сканирования веб-сайтов, но мне никогда не удавалось найти много документации по процессу, который я действительно хотел бы реализовать. Мне очень нравится идея написания базового набора правил, которые определяют, как анализировать страницу, а затем обучать инструмент, когда он делает ошибки.

Допустим, я хочу разобрать меню с сайтов ресторанов. Я хотел бы создать инструмент, который позволил бы мне написать набор правил, которые обычно показывают, где находятся пункты меню + цены. Затем я мог запустить инструмент и сказать ему, какие пункты меню были правильно проанализированы, а какие - нет. Затем инструмент «извлечет уроки» из этих исправлений, и при следующем запуске я получу лучшие результаты.

Я немного посмотрел на инструментарий NLTK, и меня удивляет, что лучший способ решить эту проблему - использовать инструмент NLP, такой как NLTK. Кто-нибудь может указать мне правильное направление для поиска книг и (в идеале) библиотек, которые могут помочь мне начать? НЛП - это путь? Спасибо!

1 Ответ

2 голосов
/ 29 октября 2011

Мне очень нравится идея написания базового набора правил, определяющих, как анализировать страницу

Что именно вы подразумеваете под "разбором страницы"? Разбор предложений на странице? Занимается структурированным извлечением информации ?

Затем инструмент «извлечет уроки» из этих исправлений, и при следующем запуске я получу лучшие результаты.

Это проблема активного обучения , которая является довольно продвинутой. Вам понадобится инструментарий машинного обучения; какой из них зависит от того, что именно вы хотите сделать: сделать синтаксический анализ деревьев или извлечение существенной информации. NLTK имеет некоторую поддержку стохастического парсера, я считаю.

...