Я довольно новичок в работе с пандами (пару месяцев), и я начинаю создавать проект, который будет основан на массиве данных панд.
Такой массив данных панд будет состоять из таблицы другого типаслов, присутствующих в сборнике текстов (около 100 тыс. документов и около 200 ключевых слов).
представьте, например, слова "автомобиль" и слово "мотоцикл" и документы с номерами doc1, doc2 и т. Д.
как мне поступить в связи с соглашением? а) Название каждого столбца - это номер документа, а индекс - слова «автомобиль» и «мотоцикл» или б) наоборот;индекс - это номера документов, а в столбцах - слова?
Мне не хватает понимания панд, чтобы предвидеть последствия такого выбора. И весь код будет основан на этом решении.
Поскольку примечание, что массив не статичен, будет добавляться больше документов и больше слов в массив время от времени.
чтобы вы посоветовали? а или б? а почему?
спасибо.