Генерация точечного графика вызывает ошибку переполнения стека - PullRequest
0 голосов
/ 16 апреля 2020

У меня действительно огромный CSV-файл, и я пытаюсь создать несколько точечных диаграмм. Если я делаю это над небольшим набором тестовых данных, все идет хорошо. Если я попробую реальный набор данных (600K строк и несколько столбцов), я получу это:

Fatal Python error: Cannot recover from stack overflow.

Я предположил, что это связано с тем, что мой набор данных слишком велик для моего P C , Вы можете себе представить мое удивление, когда Excel дал мне нужный сюжет за 5 секунд. Как это возможно, что Excel очень быстрый, и мой сценарий не может даже вычислить все это? Наверное, я что-то не так делаю ...

Это мой код:

import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('my_file.csv', sep=',', lineterminator='\r', dtype=str)
df.dropna(inplace=True)
df.reset_index(drop=True, inplace=True)
column = df['NA06991_R.Score']
plt.scatter(column, column.index)
plt.savefig('image.png')

Это пример моего набора данных:

Name    NA06991_R.Score NA06993.Score
1:103380393 0.8136272   0.2363829
1:109439680 0.4803294   0.4803294
1:110198788 0.9153528   0.9153528
1:110201112 0.4545348   0.4545348
1:110201667 0.718465    0.5041346
1:110202904 0.8686919   0.8686919
1:110203240 0.3103412   0.3103412
1:110203911 0.5571392   0.5571392
1:110206675 0.9184664   0.9184664

Как я сказал, что это просто выдержка, весь файл является массовым. Вот почему на данный момент я пытался построить только один столбец. Escel может построить 2 без проблем. С 3 это займет некоторое время. 4 колонки начинают создавать проблемы и в Excel. Что я делаю не так?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...