Sqoop From Teradata - Несоответствие числа строк - PullRequest
0 голосов
/ 04 апреля 2019

Я пытаюсь выполнить sqoop из Teradata, и изначально у меня было несоответствие в количестве строк. Количество строк, которые я прочитал в HDFS, было меньше по сравнению с количеством строк в Teradata.

sqoop import \
--connect "jdbc:teradata://IDW....." \
--driver com.teradata.jdbc.TeraDriver \
--username "$username" \
--password "pword" \
--fetch-size 5000 \
-m 5 \
--split-by col_name \
--table tablename \
--target-dir /user/username/  \
--as-parquetfile \
--compression-codec org.apache.hadoop.io.compress.SnappyCodec 

Я нашел решение, которое при добавлении в " - hive-drop-import-delims " совпадение количества строк, но я не могу понять, почему это работает. Как указано в документации sqoop это должно удалить \ n, \ r и \ 01 из строковых полей при импорте в Hive. Это означает, что если я не использую это, количество записей в HDFS должно быть больше, чем количество записей в Teradata, но мой случай противоположен. Есть указатели?

...