Извлечение информации с веб-страниц с использованием NER - PullRequest
0 голосов
/ 19 мая 2018

Моя задача - извлекать информацию с различных веб-страниц определенного сайта.Теперь извлекаемая информация может иметь вид названия продукта, идентификатора продукта, цены и т. Д. Информация предоставляется в текстовом виде на естественном языке.Кроме того, меня попросили извлечь эту информацию, используя некоторый алгоритм машинного обучения.Я подумал об использовании NER (распознавания именованных объектов) и обучении его на пользовательских данных обучения (которые я могу подготовить, используя очищенные данные и вручную помечая целые числа / данные по мере необходимости).Я хотел знать, может ли модель работать таким образом?

Кроме того, дайте мне знать, если я смогу улучшить этот вопрос.

1 Ответ

0 голосов
/ 19 мая 2018

Вы говорите конкретный сайт .Я предполагаю, что это означает, что у вас есть четкое представление о структуре веб-страниц, если данные представлены в виде таблицы или в виде произвольного текста, как обычно выглядит веб-сайт.В этом случае вам понадобится простое регулярное выражение (цены, идентификаторы и т. Д.), Поддерживаемое некоторым POS-тэгером для извлечения названий продуктов и всего этого.Контролируемый подход, безусловно, является излишним и может оказаться хуже, чем простое регулярное выражение.

...