Мне нужно иметь возможность анализировать файлы CSV и TSV. Я не могу полагаться на то, что пользователи будут знать разницу, поэтому я хотел бы не просить пользователя выбрать тип. Есть ли простой способ определить, какой разделитель используется?
Один из способов - прочитать каждую строку, сосчитать табуляцию и запятую и выяснить, какой из них наиболее последовательно используется в каждой строке. Конечно, данные могут включать запятые или табуляции, так что это легче сказать, чем сделать.
Редактировать: Еще один интересный аспект этого проекта заключается в том, что мне также понадобится определить схему файла при его чтении, поскольку он может быть одним из многих. Это значит, что я не буду знать, сколько у меня полей, пока не смогу их проанализировать.