Работа со странным форматом данных с разделителями в Talend или другом инструменте? - PullRequest
0 голосов
/ 22 февраля 2019

Итак, у меня есть странный формат с разделителями, с которым я не знаком, он основан на выводе приложения, связанного с чатом, и этот формат свойственен мне, может кто-нибудь, пожалуйста, объясните мне, что это за формат с разделителями, если он стандартный илюбой возможный способ преобразовать это в CSV с текстовыми цитатами, если это возможно.

"NumValue1|""TextValue2""|""TextValue3""|""TextValue"""

, поэтому я предполагаю, что в этом формате данных есть строка "" квалификаторы текста "" текст "", а разделитель равен |

, а также значение разграниченияв этом формате, как сказать CSV с квалификаторами текста?текстовые значения, кажется, не имеют «в них»

Talend - мой предпочтительный инструмент, но он открыт для использования чего-либо для решения этой проблемы.

1 Ответ

0 голосов
/ 28 февраля 2019

Я думаю, что это вложенная структура.Я думаю, что исходные данные представляли собой файл CSV, заключенный в кавычки.

NumValue1 | "TextValue2" | "TextValue3" | "TextValue"

Теперь они хотели заключитьэто в кавычках, но оригинальные кавычки должны быть обработаны.Таким образом, они удвоили это (распространенная техника в SQL)

Моим быстрым и грязным предложением было бы создать рабочий процесс в talend, который: tFileInputfullRow -> tJavaRow -> tFileOutputDelimited (по умолчанию OutputDelimited глючит, так что он оставит вашу строку нетронутой, по крайней мере, вTalend 5 было так)

 row2.line = row1.line.substring(1,row1.line.length()-2).replace("\"\"","\"")

Тогда вы можете сделать tFileInputDelimited с | и "

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...