Question

На подкасте Stackoverflow на этой неделе Джефф упомянул, что в 2004 году он написал скрипт, который запросил у Google 110 000 английских слов и собрал базу данных, содержащую количество совпадений для каждого слова. Они используют это на Stackoverflow, например. для списка «Связанные» в правой части каждой страницы вопроса.

Поскольку создание одного из них сегодня с подобным сценарием было бы затруднительным (как упоминал Джоэл, «при 30 000 слов вы постучали в вашу дверь»), мне было интересно, если кто-нибудь знает о более современном, бесплатная база данных частот слов Google (например, для слов ИТ, которые с тех пор наверняка изменились, таких как jquery, ruby, azure и т. д.).

Mitch Wheat · Answer 1 · 04 декабря 2008

Быстрый поиск в Google (!) Вызывает несколько обращений. Эта ссылка выглядит многообещающе:

Но он не нацелен на слова ИТ.

Miguel A. Friginal · Answer 2 · 20 мая 2009

Возможно, уже поздно ответить на этот вопрос, но я могу предложить вам другой способ. Вместо того, чтобы получать «количество обращений» от Google, чтобы вычислить некоторое приближение к нему самостоятельно. Получите большую коллекцию текстовых страниц (корпус) и посчитайте количество каждого слова в нем. Я сделал это с помощью Википедии. Существует дамп всех вики-страниц. Вам просто нужно написать парсер для извлечения текста и подсчета слов. В результате получается список из более чем 110K слов (не менее 2M-3M). Если вам действительно нужны цифры в результатах поиска Google, вы можете получить образец слов и запросить Google, а затем выполнить некоторую нормализацию вычисленных значений в соответствии со значениями Google. Надеюсь, это поможет.

Skuta · Answer 3 · 18 декабря 2008

По данным Google, вы можете отправлять 50 000 запросов в день на один IP. Я не думаю, что это незаконно, чтобы разделить это между вашими друзьями ..

У меня была похожая проблема с запросами в день по IP, но мы решили ее совершенно другим подходом.

Boris Gorelik · Answer 4 · 18 декабря 2008

Вы можете разделить список между своими друзьями / коллегами и использовать достаточно большие тайм-ауты, чтобы не превышать 50 000 запросов в день на IP, а затем объединить результаты. Я не уверен в правомерности этого подхода, но вероятность того, что люди Google «постучат в вашу дверь» с помощью этого метода, довольно мала.

ПРИМЕЧАНИЕ : отредактировано в соответствии с данными, предоставленными Skuta

Бесплатная база данных частот Google слова?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Бесплатная база данных частот Google слова?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы