У меня есть какой-то извлеченный текст из PDF-файлов, я ищу некоторые ключевые слова, соответствующие названию должности, я пытался использовать много регулярных выражений, чтобы получить только те строки, которые не начинаются с даты (любой формат даты), но мне нужнополучить другую строку, начинающуюся с любого другого числа или слова.
Я надеюсь найти блестящую идею здесь.Лучший
Я попробовал это два регулярных выражения, чтобы найти ingenieur ключевое слово без какого-либо успеха:
((?m)^(?![0-9])\\s*\\b"+ sTofind +"\\b)
, а также это:
((?m)[^(?!(0-9))][\\s{2,4}]\\b"+ sTofind +"\\b.*)
текстовый тест, который я использую, следующий (символ> не является частью текста):
etudiant -: ingenieur etudes et developpement
http://www.doyoubuzz.com/profilen
experiences
ingenieur
2018-2014 ingenieur
331 ingenieur
29 rue de la terrasse Ingenieur Centrale Lyon / Supélec
93160 NOISY LE GRAND ingenieur
09 66 11 10 93 Expertise en instrumentation industrielle,
06 44 25 90 09 automatisation ingenieur & marketing opérationnel
email.email@wanadoo.fr Bilingue anglais ingenieur
я ожидаю найти выделенный текст:
etudiant -: <i>ingenieur etudes et developpement</i>
http://www.doyoubuzz.com/profilen
<i>experiences</i>
<i>ingenieur</i>
2018-2014 ingenieur
331 <i>ingenieur</i>
29 rue de la terrasse <i>Ingenieur Centrale Lyon / Supélec </i>
93160 NOISY LE GRAND <i>ingenieur</i>
09 66 11 10 93 Expertise en instrumentation industrielle,
06 44 25 90 09 automatisation <i>ingenieur & marketing opérationnel </i>
email.email@wanadoo.fr Bilingue anglais <i>ingenieur</i>