как бороться с составными словами в регулярном выражении - PullRequest
0 голосов
/ 16 апреля 2020

Я делаю регулярные выражения, которые возвращают определения сокращений из текста. Я решил для нескольких случаев, но я не могу найти решение для случая, когда аббревиатура имеет другое количество символов, чем ее фактические слова, может быть, потому что одно слово является составным, как показано ниже.

string = 'CRC comes from the words colorectal cancer'

Я хотел бы чтобы получить «колоректальный рак» на основе его короткой формы. Есть ли у вас какие-либо советы о том, какие шаги я должен предпринять? Я думал о разделении составных слов, но это приведет к другим проблемам.

1 Ответ

0 голосов
/ 16 апреля 2020

В CR C первое слово должно начинаться с C. и следующее слово может быть либо R, либо C, если второе слово - R, третье слово должно быть C или третьего слова нет вообще. в то же время вы должны проверить, начинается ли второе слово с C. Если это так, вам не нужно проверять третье слово. ИЛИ условие в регулярных выражениях может быть, чтобы помочь. Я не могу точно определить, как, если у меня недостаточно образцов данных

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...