Как извлечь комментарий из заголовочного файла, используя python, perl или sed? - PullRequest
3 голосов
/ 23 мая 2010

У меня есть такой заголовочный файл:

/*
 * APP 180-2 ALG-254/258/772 implementation
 * Last update: 03/01/2006
 * Issue date:  08/22/2004
 *
 * Copyright (C) 2006 Somebody's Name here
 * All rights reserved.
 *
 * Redistribution and use in source and binary forms, with or without
 * modification, are permitted provided that the following conditions
 * are met:
 * 1. Redistributions of source code must retain the above copyright
 *    notice, this list of conditions and the following disclaimer.
 * 2. Redistributions in binary form must reproduce the above copyright
 *    notice, this list of conditions and the following disclaimer in the
 *    documentation and/or other materials provided with the distribution.
 * 3. Neither the name of the project nor the names of its contributors
 *    may be used to endorse or promote products derived from this software
 *    without specific prior written permission.
 *
 * THIS SOFTWARE IS PROVIDED BY THE PROJECT AND CONTRIBUTORS ``AS IS'' AND
 * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
 * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
 * ARE DISCLAIMED.  IN NO EVENT SHALL THE PROJECT OR CONTRIBUTORS BE LIABLE
 * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
 * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
 * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
 * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
 * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
 * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
 * SUCH DAMAGE.
 */

#ifndef HEADER_H
#define HEADER_H

/* More comments and C++ code here. */

#endif /* End of file. */

И я хочу извлечь только содержимое первого комментария в стиле C * и опустить «*» в начале каждой строки, чтобы получить файл со следующим содержимым:

 APP 180-2 ALG-254/258/772 implementation
 Last update: 03/01/2006
 Issue date:  08/22/2004

 Copyright (C) 2006 Somebody's Name here
 All rights reserved.

 Redistribution and use in source and binary forms, with or without
 modification, are permitted provided that the following conditions
 are met:
 1. Redistributions of source code must retain the above copyright
    notice, this list of conditions and the following disclaimer.
 2. Redistributions in binary form must reproduce the above copyright
    notice, this list of conditions and the following disclaimer in the
    documentation and/or other materials provided with the distribution.
 3. Neither the name of the project nor the names of its contributors
    may be used to endorse or promote products derived from this software
    without specific prior written permission.

 THIS SOFTWARE IS PROVIDED BY THE PROJECT AND CONTRIBUTORS ``AS IS'' AND
 ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
 IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
 ARE DISCLAIMED.  IN NO EVENT SHALL THE PROJECT OR CONTRIBUTORS BE LIABLE
 FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
 DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
 OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
 HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
 LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
 OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
 SUCH DAMAGE.

Пожалуйста, предложите простой способ сделать это с помощью Python, Perl, sed или другим способом в Unix. Желательно в качестве однострочника.

Ответы [ 3 ]

5 голосов
/ 23 мая 2010

Это должно работать для вас:

sed -n '/\*\//q; /^\/\*/d; s/^ \* \?//p' <file.h >comment.txt

Вот объяснение: sed (как вы, возможно, знаете) - это команда, которая просматривает файл, применяя список правил к каждой строке.Каждое правило состоит из «селектора» и команд, которые применяются к этой строке, только если селектор совпадает.

Первое правило имеет селектор /\*\//.Это селектор регулярного выражения;соответствует любой строке, содержащей символы */.Оба из них должны быть экранированы от обратной косой черты, поскольку они имеют особое значение в регулярном выражении.(Я предполагал, что это будет соответствовать только закрывающей строке комментария в вашем случае и что вся эта строка должна быть удалена.) Команда q, что означает «выход».Сед просто останавливается.Обычно это выводило бы строку, но я предоставил опцию -n, которая означает «не печатать, если явно не указано иное».

Второе правило имеет селектор /^\/\*/, который снова является селектором регулярного выражениясоответствует символам /* в начале строки.Опять же, я предположил, что эта строка не будет содержать часть комментария.Команда d предписывает sed удалить эту строку и двигаться дальше.

В конечном правиле нет селектора, поэтому оно применяется ко всем строкам (если только предыдущая команда не помешала обработке достичь конечного правила).Команда в этом последнем правиле является командой подстановки s/PATTERN/REPLACEMENT/, которая находит текст в строке, соответствующей некоторому шаблону, и заменяет его текстом замены.Шаблон здесь ^ \* \?, который соответствует пробелу, звездочке и пробелам 0 или 1, но только в начале строки.И замена ничто.То есть sed просто удаляет начальный пробел-звездочка- (пробел)?последовательность.p на самом деле является флагом команды подстановки, которая говорит sed выводить результат подстановки.Это необходимо из-за опции -n.

4 голосов
/ 23 мая 2010

Pyparsing включает в себя встроенный шаблон для сопоставления форматов комментариев из разных языков. Использование cStyleComment и scanString для поиска первого комментария в исходном файле делает остальные только строковые функции:

c_src = open(c_source_file).read()

from pyparsing import cStyleComment
cmt = cStyleComment.scanString(c_src).next()[0][0]
lines = [l[3:] for l in cmt.splitlines()]
print '\n'.join(lines)

scanString - это генератор, который возвращает каждое совпадение перед переходом к следующему экземпляру, поэтому обрабатывается только первый комментарий. С вашим примером кода это возвращает:

APP 180-2 ALG-254/258/772 implementation 
Last update: 03/01/2006 
Issue date:  08/22/2004 

Copyright (C) 2006 Somebody's Name here 
All rights reserved. 

Redistribution and use in source and binary forms, with or without 
modification, are permitted provided that the following conditions 
are met: 
1. Redistributions of source code must retain the above copyright 
   notice, this list of conditions and the following disclaimer. 
2. Redistributions in binary form must reproduce the above copyright 
   notice, this list of conditions and the following disclaimer in the 
   documentation and/or other materials provided with the distribution. 
3. Neither the name of the project nor the names of its contributors 
   may be used to endorse or promote products derived from this software 
   without specific prior written permission. 

THIS SOFTWARE IS PROVIDED BY THE PROJECT AND CONTRIBUTORS ``AS IS'' AND 
ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE 
IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE 
ARE DISCLAIMED.  IN NO EVENT SHALL THE PROJECT OR CONTRIBUTORS BE LIABLE 
FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL 
DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS 
OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) 
HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT 
LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY 
OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF 
SUCH DAMAGE. 
0 голосов
/ 23 мая 2010
sed -i -r "s/[\/\ ]{1}\*[\/\ ]?//g" YOURFILENAME

Это заменяет комментарии обрезки из вашего файла, сохраняя содержимое. Это изменит файл YOURFILENAME. Если вы не хотите, чтобы это убрал -i из строки

...