Я работаю с некоторыми файлами журналов, которые очень плохо отформатированы, разделитель столбцов - это элемент, который (часто) появляется в поле, и он не экранирован. Например:
sam,male,september,brown,blue,i like cats, and i like dogs
Где:
name,gender,month,hair,eyes,about
Итак, как вы можете видеть, about содержит разделитель столбцов, что означает, что один синтаксический анализ по разделителю не будет работать, потому что он разделит обо мне на два отдельных столбца. Теперь представьте это с помощью системы чата ... вы можете представить себе проблемы, я уверен.
Итак, теоретически каков наилучший подход к решению этой проблемы? Я не ищу реализацию для конкретного языка, а скорее общий указатель на правильное направление или какие-то идеи о том, как другие решили это ... без , делающего это вручную.
Edit:
Я должен уточнить, мои фактические журналы находятся в гораздо худшем состоянии. Везде есть эти поля с символами-разделителями, и я не могу найти шаблон.