Нормализация количества результатов Google по странам - PullRequest
1 голос
/ 10 марта 2012

Я пытаюсь визуализировать важность определенных фраз в определенных странах.Данные, которые я собираю, - это количество результатов в Google для разных терминов в разных странах.Например, «Красная Шапочка» в Великобритании по сравнению с Египтом или что-то в этом роде.Поскольку я буду использовать только английский для поисковых терминов (дюжина стран, поиск на лету, бесплатное использование Google Translate), мне нужно нормализовать результаты в соответствии с количеством местных английских веб-сайтов.

Например, если в Египте я получу 10000 результатов для "Американского пирога", а для США получу миллион результатов, но в Египте около 100000 веб-сайтов на английском языке, я заключу, что "Американский пирог"более популярен в египте, чем в сша.

Мне просто нужен хороший способ оценить, сколько англоязычных сайтов в каждой стране.Любые идеи?
До сих пор я пытался нормализовать, используя "the" как нормализующий термин, но результаты кажутся искаженными.

...