Regex удалить английский sh текст из смешанных китайско-английских sh предложений с помощью Notepad ++ и Excel? - PullRequest
0 голосов
/ 21 апреля 2020

Я работаю с Notepad ++ и Excel. У меня есть данные, которые содержат текст на английском языке * sh и *. * * * * * * *

Структура данных выглядит следующим образом:

<p> chinese text</p>
<p> english text</p>
<p> chinese text</p>
<p> english text</p>
<p> chinese text</p>
<p> english text</p>

Как удалить весь текст Engli sh, а также символы между и

?

Поэтому просто оставьте текст на китайском языке между и

Итак, результат выглядит так:

<p> chinese text</p>
<p> chinese text</p>
<p> chinese text</p>

Я пытался удалить текст Engli sh, удалив символы ascii с помощью регулярных выражений, но есть текст Engli sh, который был пропущен.

Смотрите этот пи c: PIC Пожалуйста, помогите мне, спасибо

Ответы [ 3 ]

0 голосов
/ 21 апреля 2020

Попробуйте: https://regex101.com/r/TGrW27/1

Это регулярное выражение будет в основном совпадать и удалять:

  • <p>: сопоставить начальный тег
  • (\w|"|'): соответствует любой букве Engli sh или " или '
  • .+: любое число раз
  • <\/p>: и следите за закрывающим тегом
0 голосов
/ 21 апреля 2020

Большинство вышеприведенных решений работают только в первом абзаце, если есть модель абзаца, которая расширяет 1 строку. Когда я пытаюсь, это не работает для абзацев, которые расширяют одну строку

enter image description here

0 голосов
/ 21 апреля 2020

Это можно сделать с помощью Блокнота ++:

  • заменить <p>[a-zA-Z"].*$ на пустую строку (режим замены регулярных выражений)
  • заменить \n\n на \n (расширенный режим замены)
  • заменить <p>|</p> на пустую строку (режим замены регулярных выражений)
...