Какой тип анализа файлов самый простой, эффективный и хороший? (HTML, PDF, CSV, текст) - PullRequest
0 голосов
/ 18 марта 2010

Я хочу разобрать html-файл, pdf-файл, csv-файл и текстовый файл. Теперь анализ для какого типа файла (указанного выше) является наиболее простым и эффективным?

Потому что я хочу проанализировать pdf, html, csv и текстовый файл через общий код анализа, если это возможно.

А теперь предположим, что разбор html проще и эффективнее:

Я напишу код разбора для html-файла и постараюсь преобразовать pdf-файл в html-файл (если это возможно), чтобы код, написанный для разбора html-файла, также работал и для pdf-файла.

И, таким образом, я попытаюсь преобразовать pdf, csv и текстовый файл в html-файл. И напишите код для разбора html-файла, и таким образом этот код будет анализировать html, pdf, csv и текстовый файл.

Итак (1) Какой тип анализа файлов наиболее прост и эффективен (pdf, csv, html, text)? (2) И преобразование файлов (pdf, text, html, csv) в другое возможно. Например, если разбирать html проще, чем pdf в html, текст в html и csv в html.

Ответы [ 3 ]

3 голосов
/ 18 марта 2010

Невозможно проанализировать все перечисленные выше типы файлов с одним и тем же кодом синтаксического анализатора.

Простейший формат текста - CSV и HTML - это текстовые файлы. Сказав это, это не значит, что их просто разобрать. Это действительно зависит от того, какое у них форматирование.

PDF-файлы имеют двоичный характер, поэтому для них потребуется другой анализатор.

В целом, чем более структурированы данные, тем проще анализ (таким образом, CSV будет самым простым и, вероятно, самым быстрым).

Я бы предложил использовать существующий синтаксический анализатор вместо написания собственного.

Существуют библиотеки, которые будут анализировать CSV и некоторые другие типы структурированного текста (например, разделители табуляции) - см. FileHelpers .

Для разбора HTML существует HTML Agilty Pack .

Существует множество парсеров PDF, как бесплатных, так и коммерческих.

0 голосов
/ 18 марта 2010

Разбор html, csv и текста одинаково прост, не могу сказать, какой из них наиболее уместен, не зная, какие данные вы собираетесь анализировать. Нетрудно конвертировать между ними, если вы знаете, что вы хотите сделать.

pdf - еще одна игра с мячом, будет намного сложнее, и для ее извлечения из нее сначала потребуется сторонняя библиотека .

0 голосов
/ 18 марта 2010

Просто посмотрите на файлы в текстовом редакторе.

Должно быть очевидно, какой из них будет самым легким.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...