У меня есть список документов Word, я должен искать в.
Обычно документ анонимизируется, поэтому имя и фамилия заменяются одним символом.
Задача должен определить, где документ не был анонимным и чье-то имя в тексте.
Например, этот текст является приемлемым: г-н Х столкнулся с проблемой.
Этот текст также приемлем: У мистера и миссис Y возникла проблема.
Однако этот текст НЕ приемлем: у мистера Джонса возникла проблема. или это ... У мистера и миссис Джонс возникла проблема.
Я думаю, что могу получить список возможных названий (мистер, миссис, Доктор и др. c)
Так что я бы хотел contstruct выражение RegEx, которое будет захватывать вхождение TITLE, за которым следуют ДВА или более буквенных символа.
Я использую апплет Powershell Select-String, который поддерживает RegEx. Пока у меня есть этот сценарий:
$Search = "Mr[ ][A-Z][A-Z]"
$aryfiles = Get-Content "K:\Echo Maintenance\Scripts\SORDocSearch\filelist.csv"
Foreach ($file in $aryfiles) {
If (Get-Content $file | Select-String -Pattern $Search) {
$file
Get-Content $file | Select-String -Pattern $Search
}
}
Это выражение RegEx "Mr [] [AZ] [AZ]" Мне нужна помощь, поскольку, к сожалению, оно соответствует Mr и Mrs X, слову 'и' интерпретируется как имя.