Разбор и хранение большого количества данных HTML - PullRequest
0 голосов
/ 25 мая 2019

У меня есть блок данных (~ 30k), в котором у меня есть htmls-страницы и png-файлы, сохраненные в папке для веб-сайтов. Эти папки названы на основе случайно сгенерированных хэшей. Мой руководитель хочет, чтобы я обработал этот блок данных, извлек некоторые атрибуты из каждой HTML-страницы и сохранил их в БД для будущего использования. Извлекаемые атрибуты включают заголовки страниц и раздел об авторских правах из HTML. Насколько я понимаю, эти данные являются неструктурированными, потому что пока нет никакого отношения, скажем, в данных папки. Более того, существует несколько присущая структура, которая относится к HTML, но по существу каждая страница взаимно не пересекается с остальной частью, что дает право на неструктурированность. Пожалуйста, поправьте меня, если я ошибаюсь.

Менеджер хочет хранить данные в стеке ELK. Храня, он довольно неясен в данный момент, но пока он хочет, чтобы весь файл HTML, заголовок и авторские права для каждого отдельного файла HTML были извлечены и сохранены. Вот мое первое беспокойство, с которым мне нужна помощь.

  • Это хорошая идея, чтобы сохранить весь файл HTML в БД? Я из Мнение о том, что мы размещаем HTML-файлы в централизованном хранилище на некоторых вид FS и хранить абсолютные пути этих файлов против каждого запись в БД (мы уже делаем то же самое для PNG).

Я не работал со стеком ELK и подумал, что это хорошая возможность для обучения. Проходя онлайн-уроки, я узнал, что это в основном для анализа логов с разных серверов приложений, а также для хранения и визуализации их в презентабельной и доступной для поиска форме.

  • Если кто-то может прокомментировать ELK, если он будет работать в моем случае, то
    было бы очень полезно.

До сих пор конечная цель - анализировать эти данные и сохранять атрибуты, а при необходимости осуществлять поиск по атрибутам и использовать их в соответствии с будущими потребностями. Например, если есть определенный текст с правом на копирование, который появляется очень часто, тогда получите этот текст об авторском праве и используйте его для классификации определенного шаблона, который относится к моему третьему и последнему вопросу.

  • Поможет ли это сохранить его в нереляционной базе данных, а затем запросить соответственно? По моему мнению, СУБД, как MySQL лучше соперника потому что будет легко искать в таблицах для конкретного тип заголовка, а затем использовать его соответственно. Конечная цель не визуализация, но иметь данные под рукой, чтобы использовать их при необходимости.
...