Как разобрать строки с символами новой строки из CSV-файла в tenorflow? - PullRequest
0 голосов
/ 01 мая 2018

Официальное руководство по тензорному потоку предлагает анализ файлов CSV, используя tf.TextLineReader для чтения файла построчно, а затем tf.decode_csv ( source ). Это, однако, не работает с записями CSV, содержащими строки с символами новой строки, поскольку это приводит к тому, что читатель разделяет одну запись CSV.

Как лучше всего анализировать файлы такого типа?

Ответы [ 2 ]

0 голосов
/ 01 мая 2018

tf.decode_csv ожидает CSV-файлы в формате RFC 4180 и согласно RFC4180 разрывы строк (CRLF) действительно должны разделять записи.

TensorFlow версии 1.8 представила API tf.contrib.data.make_csv_dataset для чтения файлов CSV в набор данных. Я не знаю, решит ли это вашу проблему, но стоит попробовать.

0 голосов
/ 01 мая 2018

pandas.read_csv () может правильно проанализировать такие CSV-файлы, если такие строки указаны в кавычках:

CSV:

a,b,c
1,"text which includes
line
breaks",100
2,another line,200
3,yet another line,300

import pd as pandas

df = pd.read_csv(r'D:\temp\1.csv')

результат:

In [21]: df
Out[21]:
   a                                      b    c
0  1  text which includes\r\nline\r\nbreaks  100
1  2                           another line  200
2  3                       yet another line  300
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...