Как читать текстовые данные с помощью панд? - PullRequest
0 голосов
/ 07 июня 2018

Мои данные находятся в текстовом файле, и формат данных показан ниже.Числа - это классы, а текст - моя особенность.Первая строка т.е.5485 - это общее количество строк.Я хочу разделить класс и функции, игнорируя первую строку т.е.5485. Как это сделать с помощью панд?Пожалуйста, помогите мне.

5485

1 Champion Products CH одобряет разделение акций Champion Products Inc сказал, что его совет директоров утвердил два на одно разделение акций своих простых акций

2компьютерные терминальные системы cpml завершили продажу компьютерные терминальные системы, в которых говорится, что она завершила продажу акций своих обыкновенных акций и

1 cobanco inc cbco год чистая прибыль против чистых активов млн. против млн. депозитов млн. против млн. кредитовмлн. против млн. нота, год не доступен

Ответы [ 2 ]

0 голосов
/ 07 июня 2018
import pandas as pd
train = pd.read_csv("dataset.csv", header=0,delimiter=",", quoting=1)
num_reviews = train["columnTitleName"].size
for i in xrange(0, num_reviews): 
    dis =  train["columnTitleName"][i]
    print dis
0 голосов
/ 07 июня 2018

Я думаю, нужно read_csv с параметрами sep='|' для одного столбца Dataframe (нужно значение разделителя, которого нет в данных) с skiprows для пропуска первой строки:

df = pd.read_csv(file, names=['data'], sep='|', skiprows=1)
print (df)
                                                data
0  1 champion products ch approves stock split ch...
1  2 computer terminal systems cpml completes sal...
2  1 cobanco inc cbco year net shr cts vs dlrs ne...

Затем столбец split для обоих по первому пробелу:

df[['class','features']] = df.pop('data').str.split(n=1, expand=True)
#convert column to numeric
df['class'] = df['class'].astype(int)
print (df)
  class                                           features
0     1  champion products ch approves stock split cham...
1     2  computer terminal systems cpml completes sale ...
2     1  cobanco inc cbco year net shr cts vs dlrs net ...
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...