Эффективное сканирование веб-страниц - PullRequest
0 голосов
/ 28 декабря 2010

Каков хороший способ в java для достижения следующего метода, который я предложил для получения НОВЫХ веб-данных для моей базы данных?Было бы лучше сравнить кучу элементов массива?Некоторые идеи были бы великолепны.

Crawler imdbCrawler = new Crawler(files.getLocalTitles("C:\\Movies"));
//add these titles to the database
//query to get existing DB titles, get directory titles and crawl negated union of these titles

1 Ответ

0 голосов
/ 28 декабря 2010

Знаете, IMDB предлагает свою базу данных бесплатно ... с некоторыми оговорками, конечно, для коммерческого использования.

Во-вторых, лучше использовать какую-то структуру / коллекцию, поэтомуесли объект в коллекции имеет данные, это означает, что вы уже просмотрели его.Если это не так, он все еще нуждается в сканировании.Если вы найдете новую ссылку, просто добавьте ее в коллекцию (без данных), и ваша ветка сбора данных найдет ее позже.

Dekker

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...