Бесплатная база данных частот Google слова? - PullRequest
7 голосов
/ 04 декабря 2008

На подкасте Stackoverflow на этой неделе Джефф упомянул, что в 2004 году он написал скрипт, который запросил у Google 110 000 английских слов и собрал базу данных, содержащую количество совпадений для каждого слова. Они используют это на Stackoverflow, например. для списка «Связанные» в правой части каждой страницы вопроса.

Поскольку создание одного из них сегодня с подобным сценарием было бы затруднительным (как упоминал Джоэл, «при 30 000 слов вы постучали в вашу дверь»), мне было интересно, если кто-нибудь знает о более современном, бесплатная база данных частот слов Google (например, для слов ИТ, которые с тех пор наверняка изменились, таких как jquery, ruby, azure и т. д.).

Ответы [ 4 ]

4 голосов
/ 04 декабря 2008

Быстрый поиск в Google (!) Вызывает несколько обращений. Эта ссылка выглядит многообещающе:

Но он не нацелен на слова ИТ.

2 голосов
/ 20 мая 2009

Возможно, уже поздно ответить на этот вопрос, но я могу предложить вам другой способ. Вместо того, чтобы получать «количество обращений» от Google, чтобы вычислить некоторое приближение к нему самостоятельно. Получите большую коллекцию текстовых страниц (корпус) и посчитайте количество каждого слова в нем. Я сделал это с помощью Википедии. Существует дамп всех вики-страниц. Вам просто нужно написать парсер для извлечения текста и подсчета слов. В результате получается список из более чем 110K слов (не менее 2M-3M). Если вам действительно нужны цифры в результатах поиска Google, вы можете получить образец слов и запросить Google, а затем выполнить некоторую нормализацию вычисленных значений в соответствии со значениями Google. Надеюсь, это поможет.

1 голос
/ 18 декабря 2008

По данным Google, вы можете отправлять 50 000 запросов в день на один IP. Я не думаю, что это незаконно, чтобы разделить это между вашими друзьями ..

У меня была похожая проблема с запросами в день по IP, но мы решили ее совершенно другим подходом.

0 голосов
/ 18 декабря 2008

Вы можете разделить список между своими друзьями / коллегами и использовать достаточно большие тайм-ауты, чтобы не превышать 50 000 запросов в день на IP, а затем объединить результаты. Я не уверен в правомерности этого подхода, но вероятность того, что люди Google «постучат в вашу дверь» с помощью этого метода, довольно мала.

ПРИМЕЧАНИЕ : отредактировано в соответствии с данными, предоставленными Skuta

...