У меня есть "плохой" файл, разделенный табуляцией, который мне нужно очистить. Проблема заключается в том, что поля могут иметь разрывы строк. Я думаю, что самый простой способ исправить это - заменить «неправильные» переносы строк каким-нибудь заменяющим символом, скажем пробелом. Теперь я могу представить, как это сделать, если в строке должно быть n полей (псевдокод)
var line = read n-1 fields ending in a tab, and then until the end of line
line.replace("\n", " ")
line.replace("\r", " ")
write line to output
Теперь эти файлы огромны, и их нельзя стравить. Это разумный подход? (Я знаю, что это будет путаница из-за разрывов строк в последнем поле, но я хочу жить с этим)
Что было бы хорошим способом прочитать достаточно данных? Меня не волнует, на каком языке это написано, но я предпочитаю .net, perl или python2, так как у меня есть время выполнения для доступных.