Найти и заменить на Блокнот ++ - PullRequest
0 голосов
/ 11 июня 2010

У меня есть документ, который был преобразован из PDF в HTML для использования на веб-сайте компании, на который можно ссылаться и индексировать для поиска.Я пытаюсь отформатировать преобразованный документ в соответствии с моими потребностями, и при этом я пытаюсь очистить некоторые ненужные файлы, которые были перенесены с того времени, когда это был PDF, например номера страниц, верхние и нижние колонтитулы.К счастью, все эти строки, которые нужно удалить, находятся в блоках по 4 строки, к сожалению, они не совсем одинаковы, поэтому не могут быть удалены с помощью простой замены букв.Строки содержат числа, которые являются инкрементными, поскольку они соотносятся со страницами.Как я могу удалить следующий пример из моего html-файла.

Title<br>
10<br>
<hr>
<A name=11></a>Footer<br>

Я пробовал много разных попыток регулярных выражений, но так как мои навыки в этой области ограничены, я не могу найти правильный синтаксис.Я уверен, что упускаю что-то довольно простое, так как, как мне кажется, все, что мне нужно, - это подстановочный знак для замены двух чисел в коде, а все остальное - буквальное.

Ответы [ 2 ]

1 голос
/ 11 июня 2010

Поиск и замена npp довольно странны.Я не могу найти символы новой строки с регулярным выражением, хотя в документации сказано:

Начиная с версии 4.9 Простая функция поиска / замены (control + h) изменилась, что позволяет использовать \ r \n и \ t в режиме регулярных выражений и расширенном режиме.

Я обновился до последней версии, но он просто не работает.Использование расширенного режима позволяет мне находить новые строки, но я не могу указывать подстановочные знаки.

Однако вы можете использовать макросы , чтобы решить эту проблему.

  • подготовить поиск, который найдет уникальный фрагмент (например, Title<br>\r\n, здесь вы можете использовать расширенный режим)
  • начать запись макроса
  • нажмите F3, чтобы использовать ваш поиск
  • отметьте четыре строки и удалите их
  • прекратите запись макроса ... готово!

Просто воспроизведите его, и оно удалит то, что вы хотели удалить.

0 голосов
/ 11 июня 2010

Если я правильно понял ваш запрос, этот шаблон соответствует вашей строке:

Title<br>( ?)\n([0-9]+)<br>( ?)\n<hr>( ?)\n<A name=([0-9]+)></a>Footer<br>

Я использую Regex Coach , чтобы опробовать сложные шаблоны регулярных выражений.Доступны другие утилиты.

edit

Поскольку я не использую Notepad ++, я не могу быть уверен, что этот шаблон будет работать для вас.Извинения, если это случится.(Я сам человек TextPad, и он работает с этим инструментом).

...