У меня есть блок данных (~ 30k), в котором у меня есть htmls-страницы и png-файлы, сохраненные в папке для веб-сайтов. Эти папки названы на основе случайно сгенерированных хэшей. Мой руководитель хочет, чтобы я обработал этот блок данных, извлек некоторые атрибуты из каждой HTML-страницы и сохранил их в БД для будущего использования. Извлекаемые атрибуты включают заголовки страниц и раздел об авторских правах из HTML.
Насколько я понимаю, эти данные являются неструктурированными, потому что пока нет никакого отношения, скажем, в данных папки. Более того, существует несколько присущая структура, которая относится к HTML, но по существу каждая страница взаимно не пересекается с остальной частью, что дает право на неструктурированность. Пожалуйста, поправьте меня, если я ошибаюсь.
Менеджер хочет хранить данные в стеке ELK. Храня, он довольно неясен в данный момент, но пока он хочет, чтобы весь файл HTML, заголовок и авторские права для каждого отдельного файла HTML были извлечены и сохранены. Вот мое первое беспокойство, с которым мне нужна помощь.
- Это хорошая идея, чтобы сохранить весь файл HTML в БД? Я из
Мнение о том, что мы размещаем HTML-файлы в централизованном хранилище на некоторых
вид FS и хранить абсолютные пути этих файлов против каждого
запись в БД (мы уже делаем то же самое для PNG).
Я не работал со стеком ELK и подумал, что это хорошая возможность для обучения. Проходя онлайн-уроки, я узнал, что это в основном для анализа логов с разных серверов приложений, а также для хранения и визуализации их в презентабельной и доступной для поиска форме.
- Если кто-то может прокомментировать ELK, если он будет работать в моем случае, то
было бы очень полезно.
До сих пор конечная цель - анализировать эти данные и сохранять атрибуты, а при необходимости осуществлять поиск по атрибутам и использовать их в соответствии с будущими потребностями. Например, если есть определенный текст с правом на копирование, который появляется очень часто, тогда получите этот текст об авторском праве и используйте его для классификации определенного шаблона, который относится к моему третьему и последнему вопросу.
- Поможет ли это сохранить его в нереляционной базе данных, а затем запросить
соответственно? По моему мнению, СУБД, как MySQL лучше соперника
потому что будет легко искать в таблицах для конкретного
тип заголовка, а затем использовать его соответственно. Конечная цель не
визуализация, но иметь данные под рукой, чтобы использовать их при необходимости.