Лучший способ хранить статьи из интернета для дальнейшего поиска - PullRequest
0 голосов
/ 18 апреля 2019

Каждый день я захожу на сайт и сохраняю весь ваш текстовый контент в какую-то базу данных.

Один из сайтов, которые я собираюсь сохранить, имеет размер 505 КБ. Есть ли способ сохранить это в базе данных, уменьшив размер без потери данных?

Сохраненная информация должна быть доступна для поиска по ключевым словам, чтобы я мог найти контент, сохраненный в предыдущие даты.

Было бы лучше использовать nosql bank?

1 Ответ

0 голосов
/ 18 апреля 2019

То, что вы описываете, может быть хорошо согласовано с Elasticsearch , который может использоваться как распределенный механизм поиска текста.

Вы также спрашивали о "уменьшении размера без потери данных?" Это сжатие без потерь , и оно очень дружественно для памяти, но может ограничить вашу способность на самом деле выполнять поиск, так как для этого может потребоваться сначала распаковка каждой строки, сама операция O (N), которая эффективно побеждает точку .

Вы также упомянули хранилище NoSQL по сравнению с реляционной базой данных. Это правильное мышление, но все еще может не быть точным соответствием. С хранилищем NoSQL связано Redis , хранилище значений ключей в памяти. Однако Redis обычно используется для поиска , т. Е. «Я даю вам URL; вы возвращаете мне HTML-код кэшированной страницы, связанный с этим URL». Это точно не описывает ваш случай и его особенности, которые могут не вписываться в модель Redis. Опять же, Elasticsearch, вероятно, хорошее место для начала.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...