Почему данные, загружаемые с помощью pytrends, кардинально отличаются от использования сайта Google Trends? - PullRequest
0 голосов
/ 24 января 2020

Я использую pytrends для загрузки интереса к поиску газет по районам метро. Вот пример для одной области метро (Остин, Техас):

from pytrends.request import TrendReq
import pandas as pd

code='US-TX-635'
papers=['The Wall Street Journal','New York Post','The New York Times','Boston Herald','San Francisco Chronicle']
pytrend = TrendReq()
pytrend.build_payload(kw_list=papers,cat=408,timeframe='all',geo=code)
test = pytrend.interest_over_time()

Я понимаю, что в Google Trends есть некоторая случайность (упоминаемая в этом посте) , но различия я Я получаю больше драм c, чем они должны быть основаны на этом, и они сохраняются, даже когда я беру много выборок и усредняю ​​по ним. Например, когда я выполняю поиск пяти газет на сайте Google Trends, в то время как точные цифры меняются, всегда бывает так, что газеты в порядке популярности: New York Times, Wall Street Journal, New York Post, Сан-Франциско. Хроника, Бостон Вестник. Это не относится ни к одному из образцов, которые я получаю из pytrends. Кроме того, как и следовало ожидать, поисковый интерес к большинству бумаг достигает пика во время финансового кризиса, согласно данным с сайта, но это также не относится к данным по трендам.

Для справки, вот запрос, который я сделал на сайте.

Кто-нибудь знает, почему это может происходить или есть другой API, который может дать более точный результаты

1 Ответ

1 голос
/ 27 марта 2020

Я знаю ответ на ваш вопрос, так как у меня возникла похожая проблема! На общедоступном сайте Google Trends с интерфейсом c отображаются данные, сгенерированные для каждой газеты в виде объекта графа знаний (т. Е. topi c), а не самого строкового запроса. Например, Wall Street Journal в виде топи c представлен идентификатором Freebase /m/017b3j на сайте Google Trends. Запросы по topi c включают релевантные поиски с опечатками и косвенными описаниями. Это должно учитывать различия, которые вы видите в данных.

При использовании pytrends ключевое слово 'The Wall Street Journal' обрабатывается как буквальный поисковый термин, а не как topi c. Если вы замените его на '/m/017b3j', Google будет обрабатывать запрос как topi c, и ваши результаты должны совпадать с результатами на веб-сайте Trends.

(Обратите внимание, что в вашем связанном ссылочном запросе WSJ представлен как %2Fm%2F017b3j, то есть версия /m/017b3j в кодировке URL)

Надеюсь, это поможет!

...