Как извлечь предложения, соответствующие 2 словам в документе HTML, которые могут не иметь точки - PullRequest
0 голосов
/ 29 ноября 2018

У меня есть несколько URL-адресов, которые мне нужны, чтобы извлечь предложения со словами: live (варианты) и work.(с примерами почти работающей формулы и идеального результата - у меня проблемы со строками 4, 5 и 6) https://docs.google.com/spreadsheets/d/1dLJfaFA_-XuVlPmS0VN0d8IR4nkUsXpCxpUwZvgLXx4/edit#gid=0

Я смог извлечь большинство, но не все с помощью регулярных выражений. Вот мое регулярное выражениеформула соответствия:

[^.>""]*[Ll]iv(e |es|e,|ing).* work.*(?=(<|\.|!|&))

Я могу использовать эту формулу соответствия:

>.*[Ll]iv(e |es|e,|ing).* work.*<

Однако, это обрезает предложения и не делаетсопоставлять другие HTML-документы.

Хотелось бы получить формулу соответствия, которая работает на всех URL-адресах.Я работал над этим несколько дней и не мог найти решение.Заранее спасибо!

1 Ответ

0 голосов
/ 29 ноября 2018

Найдена формула: (>|"")[^<>""]*[Ll]iv(e |es|e,|ing).* work.*(?=(<|\.|!|&))

Затем отфильтруйте ненужные символы оттуда

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...