Question

Мне нужно извлечь общие данные с разных сайтов. Например, я хочу очистить 100 веб-сайтов событий и извлечь ту же информацию, как название события, цена, место и т. Д. c. У каждого веб-сайта свой макет, поэтому я пишу правила парсинга вручную. Некоторые службы, такие как diffbot, могут извлекать это автоматически. Они используют какую-то модель AI / ML. Мне было интересно, может ли это быть задачей именованного объекта или, может быть, можно использовать LSTM.

gdupont · Answer 1 · 03 августа 2020

Без дополнительной информации о структуре / формате ваших целевых веб-сайтов, трудно go выйти за рамки общего c ответа.

Если они в основном основаны на тексте структурированная с помощью таблицы и всего остального), то это похоже на классическое c извлечение информации (IE) именованных сущностей. LSTM - это архитектура, которая может быть использована для этого, как и в spacy. Многие другие c библиотеки NLP classi, такие как stanfordNLP, также могут быть полезны (не всегда при глубоком обучении).

Как сделать выбор? Это будет зависеть от типа языка на этих страницах. Если более натуральный англи sh, то модели DL могли бы быть лучше. Если это жаргон предметной области (небольшой набор данных для изучения), вам может потребоваться более тщательный анализ на основе грамматики.

globglogabgalab · Answer 2 · 03 августа 2020

Чтобы добавить к предыдущему ответу, не забудьте проверить, есть ли у веб-сайтов, которые вы очищаете, API, который может значительно сократить время, затрачиваемое на кодирование, и быть более надежным, если веб-сайты изменят свои макеты.

Вы, наверное, уже это проверили, но напомнить об этом не помешает.

Модель машинного обучения для анализа данных веб-страницы и извлечения полей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Модель машинного обучения для анализа данных веб-страницы и извлечения полей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы