Question

Я хочу хранить в db просканированных сайтах (html code).Сайтов будет миллионы.Я буду искать на этих сайтах специальные строки.

Теперь я использую PostrgreSQL, но у меня есть сомнения, правильна ли реляционная база данных.Может быть, какие-то подвиги NoSQL?

Какую душу вы рекомендуете?

bpgergo · Answer 1 · 27 декабря 2011

Я использовал Apache Nutch для той же цели (сканирование, хранение и поиск миллионов сайтов) с успехом.Он основан на Lucene и масштабируется (благодаря Hadoop).

Работает из коробки.

http://nutch.apache.org/

http://lucene.apache.org/

Ehsan · Answer 2 · 14 января 2012

После того, как вы загрузили свою веб-страницу, вам нужно усечь дополнительную бесценную информацию с ваших веб-страниц (реклама, несвязанный текст, ...).Используя эту стратегию, вы уменьшите размер страницы, которую следует хранить в базе данных, и в результатах поиска появится более актуальная информация.

Я предлагаю вам создать программу, извлечь ценную информацию и сохранить ее в базе данных (если вы этого не сделаетенужна оригинальная страница) после этого вы можете создать указанную выше библиотеку lucene для поиска вашей информации

Если вам нужна более точная информация, вы можете проанализировать свою страницу и сохранить некоторые правила (направление содержимого, категория, ссылки на ресурсы внешних ресурсов)., ценная информация для всего текста скорость, ....), чтобы создать рейтинг для вашей страницы, которая является методы добычи текста.

Лучшее решение для хранения просканированных сайтов в базе данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучшее решение для хранения просканированных сайтов в базе данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы