Программное обеспечение для идентификации шаблонов в текстовых файлах - PullRequest
3 голосов
/ 13 апреля 2011

Я работаю над некоторым программным обеспечением, которое анализирует большие текстовые файлы и вставляет данные в базу данных. Каждый раз, когда мы получаем нового клиента, мы должны написать новый код синтаксического анализа для их текстовых файлов.

Я ищу какое-нибудь программное обеспечение, которое поможет упростить анализ текстовых файлов. Было бы неплохо иметь какое-то программное обеспечение, которое могло бы идентифицировать шаблоны в файле.

Я также открыт для любых библиотек синтаксического анализа общего назначения (.NET), которые могут упростить работу. Или любое другое соответствующее программное обеспечение.

Спасибо.

Более конкретно

Я открываю текстовый файл с помощью магического программного обеспечения, которое показывает мне повторяющиеся шаблоны, которые он идентифицировал. На самом деле я просто ищу какие-либо инструменты, которые разработчики использовали, чтобы помочь им разобрать файлы. Если вам что-то помогло, расскажите мне об этом.

1 Ответ

0 голосов
/ 28 июня 2011

Ну, вероятно, не совсем то, что вы ищете, но обнаружение клона может быть правильной идеей.

Существует множество таких детекторов. Некоторые работают только с одной необработанной строкой текста, и это может относиться непосредственно к вам.

Некоторые работают только над произведениями («жетонами»), составляющими текст, для некоторого определения «жетонов». Вам нужно определить, что вы подразумеваете под токенами для таких инструментов.

Но вы, кажется, хотите что-то, что обнаружит структуру текста, а затем ищет повторяющиеся блоки с некоторым параметрическим изменением. Я думаю, что это действительно трудно сделать, если вы заранее не знаете, что это за структура.

Наш CloneDR делает это для исходного кода языка программирования, где "известной структурой" является структура самого языка программирования, как это конкретно описано правилами грамматики BNF.

Вы, вероятно, не хотите, чтобы обнаружение дубликатов смещалось с помощью Java для полуструктурированного текста Но если вы действительно знаете что-то о структуре документов, вы можете записать это в виде грамматики, и наш инструмент CloneDR затем подберет это.

...