Question

Я сбрасываю некоторые данные Hive в CSV, используя довольно стандартный:

beeline -f my_script.hql --output_format=csv2 > data.csv

Однако этот файл не выглядит правильно CSV:

Он не может быть прочитан по unix системам

$ file data.csv
data.csv   data

Это не может быть прочитано pandas в python:

>>> import pandas as pd
>>> pd.read_csv("data.csv")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/estergiadis/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py", line 685, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "/Users/estergiadis/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py", line 463, in _read
    data = parser.read(nrows)
  File "/Users/estergiadis/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py", line 1154, in read
    ret = self._engine.read(nrows)
  File "/Users/estergiadis/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py", line 2059, in read
    data = self._reader.read(nrows)
  File "pandas/_libs/parsers.pyx", line 881, in pandas._libs.parsers.TextReader.read
  File "pandas/_libs/parsers.pyx", line 896, in pandas._libs.parsers.TextReader._read_low_memory
  File "pandas/_libs/parsers.pyx", line 950, in pandas._libs.parsers.TextReader._read_rows
  File "pandas/_libs/parsers.pyx", line 937, in pandas._libs.parsers.TextReader._tokenize_rows
  File "pandas/_libs/parsers.pyx", line 2132, in pandas._libs.parsers.raise_parser_error
pandas.errors.ParserError: Error tokenizing data. C error: Expected 4 fields in line 3, saw 7

Проблема, похоже, связана с символом кавычек (который не ", как в стандартном CSV). Как я могу это исправить?

kovalevfm · Answer 1 · 05 февраля 2020

Hive использует символ \ 0 в качестве символа кавычки, его можно заменить на '"'.

Например:

cat data.csv | sed 's/"/""/g' | tr '\0' '"' > fixed_data.csv

Hive CSV не может быть импортирован в Pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Hive CSV не может быть импортирован в Pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы