Python Regex соответствует заголовкам новостей - PullRequest
0 голосов
/ 05 ноября 2019

Я бы хотел сопоставить все предложения, которые потенциально могут быть заголовками новостей.

На данный момент у меня есть что-то вроде этого:

  1. ^([A-Z][a-z]*\b\s*)+$

Пример: Audi ожидает увеличения закупок автомобилей

^([A-Z0-9]*\b\s*)+$

Пример: AUDI ОЖИДАЕТ УВЕЛИЧЕНИЯ ПОКУПКИ АВТОМОБИЛЯ В 2 РАЗА К 2021

^([A-Za-z0-9]*\b\s*)+$

Пример 1. Audi рассчитывает увеличить закупки автомобилей в 2 раза к 2020 году

Пример 2: AUDI рассчитывает увеличить закупки автомобилей в 2 раза к 2020 году

Примечание. Все эти регулярные выражения не обнаружат следующие предложения (предложения после заголовка), когда эти предложения заканчиваются точкой.

Пример:

Увеличение закупок автомобилей в 2 раза к 2020 году

Вот еще несколько подробностей о плане аудита. Генеральный директор Audi Руперт Штадлер сказал, что ... и т.д.

У кого-нибудь есть еще какие-нибудь хорошие рекомендации по регулярным выражениям, как сопоставить возможные названия?

1 Ответ

0 голосов
/ 05 ноября 2019

В каком формате ваши данные? Это одна длинная непрерывная строка, html / xml данные или списки предложений?

Ваше регулярное выражение заканчивается без пунктуации "() + $". $ Здесь может быть проблемой, если это длинная строка. Вы можете изменить свое регулярное выражение с помощью разрывов строк или других подобных индикаторов (\ r \ n) и т. Д.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...