Без дополнительной информации о структуре / формате ваших целевых веб-сайтов, трудно go выйти за рамки общего c ответа.
Если они в основном основаны на тексте структурированная с помощью таблицы и всего остального), то это похоже на классическое c извлечение информации (IE) именованных сущностей. LSTM - это архитектура, которая может быть использована для этого, как и в spacy. Многие другие c библиотеки NLP classi, такие как stanfordNLP, также могут быть полезны (не всегда при глубоком обучении).
Как сделать выбор? Это будет зависеть от типа языка на этих страницах. Если более натуральный англи sh, то модели DL могли бы быть лучше. Если это жаргон предметной области (небольшой набор данных для изучения), вам может потребоваться более тщательный анализ на основе грамматики.