API веб-поиска для 25000-50000 записей - PullRequest
3 голосов
/ 26 января 2010

У меня есть 20000-50000 записей в файле Excel. Один столбец содержит название этой компании. В идеале, я хотел бы найти название этой компании, и, какой бы ни был первый результат, я бы выбрал связанный с ним URL. Я знаю, что Google (который мой идеальный выбор) предоставляет AJAX Search API. Тем не менее, он также имеет 1000 лимит поиска для каждого владельца домена. Есть ли способ получить более 20000 поисковых запросов без создания 20 учетных записей в Google, или есть альтернативный механизм, который я мог бы использовать?

Любые альтернативные способы решения этой проблемы также приветствуются (т. Е. Поиск в Whois).

Ответы [ 2 ]

3 голосов
/ 26 января 2010

Google AJAX Search не имеет такого ограничения 1000. Yahoo Search делает. Google AJAX Search ограничивает вас получением 64 результатов на поиск, но в остальном не имеет ограничений.

Из Google AJAX Search API - Справочник классов :

Примечание: максимальное количество результатов страницы основаны на типе Искатель. Локальный поиск поддерживает 4 страниц (или максимум 32 всего результаты) и другие поисковики (Блог, Книга, Имидж, Новости, Патент, Видео и Интернет) поддержка 8 страниц (для максимум 64 результата).

1 голос
/ 26 января 2010

Подходы, которые избегают использования внешней службы поиска ...

Подход 1 - поместить информационное содержимое XML в базу данных и осуществлять поиск с использованием SQL / JDBC. Вариации же с использованием Hibernate и т. Д.

Подход 2 - считайте файл XML как структуру данных в памяти как коллекцию Java и выполните поиск программно. Это будет использовать немного памяти в зависимости от того, сколько информации содержится в файле XML, но вам нужно только выяснить, как анализировать / загружать XML и получать доступ к коллекции.

Однако было бы полезно, если бы вы объяснили контекст, в котором вы пытаетесь это сделать. Это плагин для браузера? Клиентская сторона веб-приложения? Серверная сторона? Настольное приложение?

...