Я пытаюсь импортировать файл .csv в Python-панды следующим образом:
dataframe = pd.read_csv(inputfile, sep=delimiter, header=None)
Однако каждая строка (огромного) inputfile
состоит из целого числа, за которым следует строка. Как это:
1234 this string % might; contain 눈 anything
Результатом должно быть два столбца dataframe
, в котором указано Integer
в позиции 1, а остальная часть строки в позиции 2.
Поскольку в строке может присутствовать любой символ, я не могу использовать один символ в качестве разделителя. Попытка использовать крайне маловероятную длинную строковую последовательность, такую как «khlKiwVlZdsb9oVKq5yG», в качестве разделителя для одного человека выглядит как грязный обходной путь, во-вторых, не может быть надежным на 100% и в-третьих вызывает следующую «ошибку / неудобство»:
ParserWarning: откат к движку 'python', потому что движок 'c' не поддерживает разделители регулярных выражений (разделители> 1 символ и отличные от '\ s +' интерпретируются как регулярное выражение); Вы можете избежать этого предупреждения, указав engine = 'python'.
Итак, мой вопрос: есть ли лучший способ решить мою проблему? Может быть, какой-нибудь вариант сказать пандам игнорировать любые дальнейшие разделители после того, как встретился первый в строке?
Спасибо за любые предложения!