Я хочу разобрать html-файл, pdf-файл, csv-файл и текстовый файл. Теперь анализ для какого типа файла (указанного выше) является наиболее простым и эффективным?
Потому что я хочу проанализировать pdf, html, csv и текстовый файл через общий код анализа, если это возможно.
А теперь предположим, что разбор html проще и эффективнее:
Я напишу код разбора для html-файла и постараюсь преобразовать pdf-файл в html-файл (если это возможно), чтобы код, написанный для разбора html-файла, также работал и для pdf-файла.
И, таким образом, я попытаюсь преобразовать pdf, csv и текстовый файл в html-файл. И напишите код для разбора html-файла, и таким образом этот код будет анализировать html, pdf, csv и текстовый файл.
Итак (1) Какой тип анализа файлов наиболее прост и эффективен (pdf, csv, html, text)?
(2) И преобразование файлов (pdf, text, html, csv) в другое возможно.
Например, если разбирать html проще, чем pdf в html, текст в html и csv в html.