Ошибка памяти при создании фрейма данных в Python - PullRequest
0 голосов
/ 29 декабря 2018

Эй, ребята

У меня были проблемы при создании моего набора данных с Python.Я делаю это:

 userTab = pd.read_csv('C:\\Users\\anto-\\Desktop\\Ex. 
 Resource\\mapping_user_id.tsv',delimiter="\t",names = 
 ["User","Sequence"])

 wordTab = pd.read_csv('C:\\Users\\anto-\\Desktop\\Ex. 
 Resource\\mapping_word_id.tsv',delimiter="\t",names = 
 ["Word","Sequence"])



 df = pd.DataFrame(data=data, index= userTab.User, columns=wordTab.Word)

Я пытаюсь создать набор данных из 2 элементов, userTab.User - это строка, а wordTab.Word - это элементы столбцов.Может быть, форма слишком велика для вычисления таким образом.Я печатаю форму моего элемента, потому что сначала я думаю, что я ошибся в размерах.

((603668,), (37419,), (603668, 37419))

после этогоя пытаюсь напечатать тип, и мой пользователь и слово - это элемент Seris, а данные - scipy.sparse.csc.csc_matrix

Возможно, мне нужно использовать чанк для этой фигуры, но я видел ссылку на pandas.DataFrame иУ меня нет атрибута.

У меня 8 ГБ ОЗУ на 64-битном Python.Разреженная матрица находится в файле npz (около 300 МБ)

ошибка - общая ошибка:

   MemoryError                               Traceback (most recent call 
   last)
   <ipython-input-26-ad363966ef6a> in <module>()
   10 type(sparse_matrix)
   11 
    ---> 12 df = pd.DataFrame(data=sparse_matrix, index= 
   np.array(userTab.User), columns= np.array(wordTab.Word))

   ~\Anaconda3\lib\site-packages\pandas\core\frame.py in __init__(self, 
   data, index, columns, dtype, copy)
   416             if arr.ndim == 0 and index is not None and columns is not 
   None:
   417                 values = cast_scalar_to_array((len(index), 
   len(columns)),
   --> 418                                               data, dtype=dtype)
   419                 mgr = self._init_ndarray(values, index, columns,
   420                                          dtype=values.dtype, 
   copy=False)

   ~\Anaconda3\lib\site-packages\pandas\core\dtypes\cast.py in 
  cast_scalar_to_array(shape, value, dtype)
  1164         fill_value = value
 1165 
 -> 1166     values = np.empty(shape, dtype=dtype)
  1167     values.fill(fill_value)
  1168 

  MemoryError: 

может быть проблема может быть в этом, потому что у меня есть своего рода идентификатор, который при попыткечтобы получить доступ к столбцу пользователя, идентификатор останется в userTab.User

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...