Добавление разных категорий к нескольким строкам в панде - PullRequest
0 голосов
/ 02 декабря 2018

У меня три документа с сотнями строк.Я хочу добавить их в массив данных с разными категориями имен.Я пытаюсь с помощью следующего кода.Но хотя я могу комбинировать документы в кадре данных, я не могу приписать уникальные имена категориям.

with open('fdi.txt') as g:
    fdi = g.read()
with open('gdp.txt') as g:
    gdp= g.read()
with open('gni.txt') as g:
    gni= g.read()    
df = pd.DataFrame({'text': fdi + gdp + gni, 
                      'categories': ['India', 'Israel', 'Fiji']}, index=[0])

Спасибо.

1 Ответ

0 голосов
/ 03 декабря 2018

Немного сложно ответить на ваш вопрос, не увидев примерные данные о том, что содержат fdi, gdp и gni, и как будет выглядеть ваш желаемый результат.Но так как вы упоминаете «строки» в текстиле, и у вас есть три категории, я предполагаю, что вы хотите, чтобы каждая категория принадлежала каждому содержимому файла.

Таким образом, предполагая, что текстовые файлы содержат строки данных, мы можем разделить их насимвол новой строки \n список категорий, которые мы затем можем удлинить в зависимости от количества строк в соответствующем файле.EG ['India']*len(fdi.split('\n'))

Если приведенные выше предположения верны, вы можете использовать следующий код:

df = pd.DataFrame({'text': fdi.split('\n')+gdp.split('\n')+gni.split('\n'),
          'Categories':['India']*len(fdi.split('\n'))+
         ['Israel']*len(gdp.split('\n'))+
         ['Fiji']*len(gni.split('\n'))})

Если это не то, что вам было нужно, добавьте образец содержимоготекстовые файлы и желаемый вывод.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...