создаю фрейм данных и записываю его в файл .csv. Я знаю, что в нем более 1 м строк, потому что как только я открываю его в Excel, он достигает предела в 1 048 576 строк.
Если я использую wc -l seconddataset.csv
, терминал печатает 100001
, почему это так? Когда я печатаю pandas df
в терминале, он показывает только 100000
строк. В то время как на самом деле их больше.
Кроме того, я импортирую seconddataset.csv
в Google Data Studio и вижу, что не все строки импортированы. Я чувствую, что некоторые из моих строк удаляются перед импортом.
Есть ли какие-нибудь забавные вещи, происходящие с DataFrame
или df.to_csv()
?
Части моего кода:
def initialize_analyticsreporting():
credentials = ServiceAccountCredentials.from_json_keyfile_name(
KEY_FILE_LOCATION, SCOPES)
# Build the service object.
analytics = build('analyticsreporting', 'v4', credentials=credentials)
return analytics
def get_report(analytics):
'''Queries the Analytics Reporting API V4.
Args:
analytics: An authorized Analytics Reporting API V4 service object.
Returns:
The Analytics Reporting API V4 response.
'''
return analytics.reports().batchGet(
body={
'reportRequests': [
{
'viewId': VIEW_ID,
'pageSize': 100000000,
'dateRanges': [{'startDate': '90daysAgo', 'endDate': 'yesterday'}],
'metrics': [{'expression': 'ga:adClicks'}, {'expression': 'ga:impressions'}, {'expression': 'ga:adCost'}, {'expression': 'ga:CTR'}, {'expression': 'ga:CPC'}, {'expression': 'ga:costPerTransaction'}, {'expression': 'ga:transactions'}, {'expression': 'ga:transactionsPerSession'}, {'expression': 'ga:pageviews'}, {'expression': 'ga:timeOnPage'}],
'dimensions': [{'name': 'ga:adMatchedQuery'}, {'name': 'ga:campaign'}, {'name': 'ga:adGroup'}, {'name': 'ga:adwordsCustomerID'}, {'name': 'ga:date'}],
'orderBys': [{'fieldName': 'ga:impressions', 'sortOrder': 'DESCENDING'}]
}]
}
).execute()
def print_response(response):
global df
list = []
# get report data
for report in response.get('reports', []):
# set column headers
columnHeader = report.get('columnHeader', {})
dimensionHeaders = columnHeader.get('dimensions', [])
metricHeaders = columnHeader.get(
'metricHeader', {}).get('metricHeaderEntries', [])
rows = report.get('data', {}).get('rows', [])
for row in rows:
# create dict for each row
dict = {}
dimensions = row.get('dimensions', [])
dateRangeValues = row.get('metrics', [])
# fill dict with dimension header (key) and dimension value (value)
for header, dimension in zip(dimensionHeaders, dimensions):
dict[header] = dimension
# fill dict with metric header (key) and metric value (value)
for i, values in enumerate(dateRangeValues):
for metric, value in zip(metricHeaders, values.get('values')):
# set int as int, float a float
if ',' in value or '.' in value:
dict[metric.get('name')] = float(value)
else:
dict[metric.get('name')] = int(value)
list.append(dict)
df = pd.DataFrame(list)
return df
analytics = initialize_analyticsreporting()
response = get_report(analytics)
print_response(response)
0
1
2
...
99997
99998
99999
[100000 rows x 36 columns]
df не пустой, я просто не удосужился включить данные.
Затем я переименовываю столбцы и добавляю новые, затем экспортирую файл:
df.to_csv('SecondDataset.csv', encoding="utf-8", index=False)
Спасибо за ваши предложения.