Мне нужно очистить около 5000 сайтов, на которых есть информация, связанная с чем-то. Таким образом, данные будут как-то структурированы, например item_id, name, description, date ....
.
Дополнительная информация, найденная на странице, должна быть доступна для поиска.
Моя идея состоит в том, что мне не нужна реляционная база данных, мне не нужно делать логические запросы, мне просто нужно искать данные по заданному ключевому слову. Поэтому кто-то может просто набрать "green yellow"
, и он будет искать все элементы, в которых есть эти два слова. Учитывая, что количество продуктов может достигать многих миллионов, мне было интересно, какую технологию лучше использовать с этим, можно ли что-то масштабировать, надеюсь, или, может быть, есть решения в облаке?
Что касается очистки, я думал о Node.js, так как могу связать его с jQuery, который идеально подходит для структур DOM и HTML. Что касается хранения, я все еще немного потерян, но у меня есть некоторый опыт работы с Lucene, поэтому я мог хранить очищенные данные непосредственно в Lucene.
Что ты думаешь? Любой совет от людей, которые сделали что-то подобное уже было бы здорово! Спасибо.