Модель машинного обучения для анализа данных веб-страницы и извлечения полей - PullRequest
0 голосов
/ 03 августа 2020

Мне нужно извлечь общие данные с разных сайтов. Например, я хочу очистить 100 веб-сайтов событий и извлечь ту же информацию, как название события, цена, место и т. Д. c. У каждого веб-сайта свой макет, поэтому я пишу правила парсинга вручную. Некоторые службы, такие как diffbot, могут извлекать это автоматически. Они используют какую-то модель AI / ML. Мне было интересно, может ли это быть задачей именованного объекта или, может быть, можно использовать LSTM.

Ответы [ 2 ]

1 голос
/ 03 августа 2020

Без дополнительной информации о структуре / формате ваших целевых веб-сайтов, трудно go выйти за рамки общего c ответа.

Если они в основном основаны на тексте структурированная с помощью таблицы и всего остального), то это похоже на классическое c извлечение информации (IE) именованных сущностей. LSTM - это архитектура, которая может быть использована для этого, как и в spacy. Многие другие c библиотеки NLP classi, такие как stanfordNLP, также могут быть полезны (не всегда при глубоком обучении).

Как сделать выбор? Это будет зависеть от типа языка на этих страницах. Если более натуральный англи sh, то модели DL могли бы быть лучше. Если это жаргон предметной области (небольшой набор данных для изучения), вам может потребоваться более тщательный анализ на основе грамматики.

0 голосов
/ 03 августа 2020

Чтобы добавить к предыдущему ответу, не забудьте проверить, есть ли у веб-сайтов, которые вы очищаете, API, который может значительно сократить время, затрачиваемое на кодирование, и быть более надежным, если веб-сайты изменят свои макеты.

Вы, наверное, уже это проверили, но напомнить об этом не помешает.

...