Проверка количества строк в файле .csv в терминале - PullRequest
2 голосов
/ 15 января 2020

создаю фрейм данных и записываю его в файл .csv. Я знаю, что в нем более 1 м строк, потому что как только я открываю его в Excel, он достигает предела в 1 048 576 строк.

Если я использую wc -l seconddataset.csv, терминал печатает 100001, почему это так? Когда я печатаю pandas df в терминале, он показывает только 100000 строк. В то время как на самом деле их больше.

Кроме того, я импортирую seconddataset.csv в Google Data Studio и вижу, что не все строки импортированы. Я чувствую, что некоторые из моих строк удаляются перед импортом.

Есть ли какие-нибудь забавные вещи, происходящие с DataFrame или df.to_csv()?

Части моего кода:

def initialize_analyticsreporting():
    credentials = ServiceAccountCredentials.from_json_keyfile_name(
        KEY_FILE_LOCATION, SCOPES)

    # Build the service object.
    analytics = build('analyticsreporting', 'v4', credentials=credentials)

    return analytics


def get_report(analytics):
    '''Queries the Analytics Reporting API V4.

    Args:
      analytics: An authorized Analytics Reporting API V4 service object.
    Returns:
      The Analytics Reporting API V4 response.
    '''

    return analytics.reports().batchGet(
        body={
            'reportRequests': [
                {
                    'viewId': VIEW_ID,
                    'pageSize': 100000000,
                    'dateRanges': [{'startDate': '90daysAgo', 'endDate': 'yesterday'}],
                    'metrics': [{'expression': 'ga:adClicks'}, {'expression': 'ga:impressions'}, {'expression': 'ga:adCost'}, {'expression': 'ga:CTR'}, {'expression': 'ga:CPC'}, {'expression': 'ga:costPerTransaction'}, {'expression': 'ga:transactions'}, {'expression': 'ga:transactionsPerSession'}, {'expression': 'ga:pageviews'}, {'expression': 'ga:timeOnPage'}],
                    'dimensions': [{'name': 'ga:adMatchedQuery'}, {'name': 'ga:campaign'}, {'name': 'ga:adGroup'}, {'name': 'ga:adwordsCustomerID'}, {'name': 'ga:date'}],
                    'orderBys': [{'fieldName': 'ga:impressions', 'sortOrder': 'DESCENDING'}]
                }]
        }
    ).execute()


def print_response(response):
    global df
    list = []
    # get report data
    for report in response.get('reports', []):
        # set column headers
        columnHeader = report.get('columnHeader', {})
        dimensionHeaders = columnHeader.get('dimensions', [])
        metricHeaders = columnHeader.get(
            'metricHeader', {}).get('metricHeaderEntries', [])
        rows = report.get('data', {}).get('rows', [])

    for row in rows:
        # create dict for each row
        dict = {}
        dimensions = row.get('dimensions', [])
        dateRangeValues = row.get('metrics', [])

        # fill dict with dimension header (key) and dimension value (value)
        for header, dimension in zip(dimensionHeaders, dimensions):
            dict[header] = dimension

        # fill dict with metric header (key) and metric value (value)
        for i, values in enumerate(dateRangeValues):
            for metric, value in zip(metricHeaders, values.get('values')):
                # set int as int, float a float
                if ',' in value or '.' in value:
                    dict[metric.get('name')] = float(value)
                else:
                    dict[metric.get('name')] = int(value)

        list.append(dict)

    df = pd.DataFrame(list)
    return df


analytics = initialize_analyticsreporting()
response = get_report(analytics)
print_response(response)

0
1
2
...
99997
99998
99999
[100000 rows x 36 columns]

df не пустой, я просто не удосужился включить данные.

Затем я переименовываю столбцы и добавляю новые, затем экспортирую файл:

df.to_csv('SecondDataset.csv', encoding="utf-8", index=False)

Спасибо за ваши предложения.

1 Ответ

3 голосов
/ 15 января 2020

Когда вы делаете

df = pd.DataFrame(list)

Pandas создает имена столбцов на основе диапазона. Вы можете увидеть их, используя df.columns.

Одна дополнительная строка - это имена столбцов, созданные pandas.

Если вы не хотите использовать дополнительную строку, сохраните, используя,

df.to_csv('SecondDataset.csv', header=False)
...