Question

Я довольно новичок в работе с пандами (пару месяцев), и я начинаю создавать проект, который будет основан на массиве данных панд.

Такой массив данных панд будет состоять из таблицы другого типаслов, присутствующих в сборнике текстов (около 100 тыс. документов и около 200 ключевых слов).

представьте, например, слова "автомобиль" и слово "мотоцикл" и документы с номерами doc1, doc2 и т. Д.

как мне поступить в связи с соглашением? а) Название каждого столбца - это номер документа, а индекс - слова «автомобиль» и «мотоцикл» или б) наоборот;индекс - это номера документов, а в столбцах - слова?

Мне не хватает понимания панд, чтобы предвидеть последствия такого выбора. И весь код будет основан на этом решении.

Поскольку примечание, что массив не статичен, будет добавляться больше документов и больше слов в массив время от времени.

чтобы вы посоветовали? а или б? а почему?

спасибо.

Vinit Neogi · Answer 1 · 10 ноября 2019

Обычно в пандах мы придерживаемся практики, когда экземпляры - это столбцы (здесь номер документа), а объекты - это столбцы (здесь слова). Итак, предпочитаю использовать подход «б».

Как выбрать расположение столбцов Python Pandas против строк

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как выбрать расположение столбцов Python Pandas против строк

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы