Удаление номеров строк и вкладок из текстового файла в Python - PullRequest
0 голосов
/ 14 октября 2019

Когда я импортирую в текстовый файл, я получаю эти результаты, показанные ниже. Мне нужно убрать lineNumber и \ t из каждого значения.

По сути, мне нужно все, что справа от \ t, чтобы добавить в список, и мне нужно игнорировать все остальное. Это то, что производит мой код.

data = []
df = pd.read_csv("tIncomes.txt")
df.head(20)

    taxIncomes
0   1\t5601
1   2\t4977
2   3\t5959
3   4\t6267
4   5\t5221
5   6\t3094
6   7\t308
7   8\t458
8   9\t390
9   10\t74
10  11\t589
11  12\t290

После того, как я избавился от 1 \ t, мне нужно извлечь первую цифру каждого значения в массиве и сохранить его. Итак, х = [5,4,5,6,5,3,3, ... и т. Д.]

Ответы [ 2 ]

0 голосов
/ 15 октября 2019

Вы можете написать метод для извлечения нужного значения, например:

data = []
df = pd.read_csv("tIncomes.txt")

data=[_.split('\t')[1][0] for _  in  df[" taxIncomes"]]

Этот метод не требует изменения исходного кода.

0 голосов
/ 14 октября 2019

Панды по умолчанию для разделителя «read_csv» - это «,» (запятая). Кажется, ваши данные вместо этого используют '\ t'. В соответствии с документацией , вы можете использовать аргумент sep для указания read_csv в противном случае.

Пожалуйста, попробуйте:

df = pd.read_csv("tIncomes.txt", sep='\t')
digits = [int(str(num)[0]) for num in data.iloc[:, 1] if num]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...