Сегментация предложений с использованием Regex - PullRequest
2 голосов
/ 19 июля 2011

У меня мало текстовых (SMS) сообщений, и я хочу сегментировать их, используя точку ('.') В качестве разделителя. Я не могу обрабатывать следующие типы сообщений. Как я могу сегментировать эти сообщения, используя Regex в Python.

До сегментации:

'hyper count 16.8mmol/l.plz review b4 5pm.just to inform u.thank u'
'no of beds 8.please inform person in-charge.tq'

После сегментации:

'hyper count 16.8mmol/l' 'plz review b4 5pm' 'just to inform u' 'thank u'
'no of beds 8' 'please inform person in-charge' 'tq'

Каждая строка - это отдельное сообщение


Я занимаюсь обработкой естественного языка, и я чувствую, что можно обрабатывать '16.8mmmol/l' и 'no of beds 8.2 cups of tea.' как одно и то же. Точности 80% мне достаточно, но я хочу максимально уменьшить False Positive.

Ответы [ 5 ]

5 голосов
/ 20 июля 2011

Несколько недель назад я искал регулярное выражение, которое перехватывало бы каждую строку, представляющую число в строке, независимо от того, в какой форме написано число, даже в научной нотации, даже у индийских чисел с запятыми: см. эта тема

Я использую это регулярное выражение в следующем коде, чтобы дать решение вашей проблемы.

Вопреки другим ответам, в моем решении точка в '8.' не рассматривается как точка, на которой должно быть выполнено разбиение, потому что ее можно читать как число с плавающей точкой, не имеющее цифра после точки.

import re

regx = re.compile('(?<![\d.])(?!\.\.)'
                  '' #---------------------------------
                  '' #---------------------------------
                  '' #---------------------------------

simpler_regex = re.compile('(?<![\d.])0*(?:'

def split_outnumb(string, regx=regx, a=0):
    excluded_pos = [x for mat in regx.finditer(string) for x in range(*mat.span()) if string[x]=='.']
    li = []
    for xdot in (x for x,c in enumerate(string) if c=='.' and x not in excluded_pos):
        a = xdot + 1
    return li

for sentence in ('hyper count 16.8mmol/l.plz review b4 5pm.just to inform u.thank u',
                 'no of beds 8.please inform person in-charge.tq',
                 'no of beds 8.2 cups of tea.tarabada',
                 'this number .977 is a float',
                 'numbers 214.21E+45 , 478945.E-201 and .12478E+02 are in scientific.notation',
                 'an indian number 12,45,782.258 in this.sentence and 45,78,325. is another',
                 'no dot in this sentence',
    print 'sentence         =',sentence
    print 'splitted eyquem  =',split_outnumb(sentence)
    print 'splitted eyqu 2  =',split_outnumb(sentence,regx=simpler_regex)
    print 'splitted gurney  =',re.split(r"\.(?!\d)", sentence)
    print 'splitted stema   =',re.split('(?<!\d)\.|\.(?!\d)',sentence)


sentence         = hyper count 16.8mmol/l.plz review b4 5pm.just to inform u.thank u
splitted eyquem  = ['hyper count 16.8mmol/l', 'plz review b4 5pm', 'just to inform u', 'thank u']
splitted eyqu 2  = ['hyper count 16.8mmol/l', 'plz review b4 5pm', 'just to inform u', 'thank u']
splitted gurney  = ['hyper count 16.8mmol/l', 'plz review b4 5pm', 'just to inform u', 'thank u']
splitted stema   = ['hyper count 16.8mmol/l', 'plz review b4 5pm', 'just to inform u', 'thank u']

sentence         = no of beds 8.please inform person in-charge.tq
splitted eyquem  = ['no of beds 8.please inform person in-charge', 'tq']
splitted eyqu 2  = ['no of beds 8.please inform person in-charge', 'tq']
splitted gurney  = ['no of beds 8', 'please inform person in-charge', 'tq']
splitted stema   = ['no of beds 8', 'please inform person in-charge', 'tq']

sentence         = no of beds 8.2 cups of tea.tarabada
splitted eyquem  = ['no of beds 8.2 cups of tea', 'tarabada']
splitted eyqu 2  = ['no of beds 8.2 cups of tea', 'tarabada']
splitted gurney  = ['no of beds 8.2 cups of tea', 'tarabada']
splitted stema   = ['no of beds 8.2 cups of tea', 'tarabada']

sentence         = this number .977 is a float
splitted eyquem  = ['this number .977 is a float']
splitted eyqu 2  = ['this number .977 is a float']
splitted gurney  = ['this number .977 is a float']
splitted stema   = ['this number ', '977 is a float']

sentence         = numbers 214.21E+45 , 478945.E-201 and .12478E+02 are in scientific.notation
splitted eyquem  = ['numbers 214.21E+45 , 478945.E-201 and .12478E+02 are in scientific', 'notation']
splitted eyqu 2  = ['numbers 214.21E+45 , 478945.E-201 and .12478E+02 are in scientific', 'notation']
splitted gurney  = ['numbers 214.21E+45 , 478945', 'E-201 and .12478E+02 are in scientific', 'notation']
splitted stema   = ['numbers 214.21E+45 , 478945', 'E-201 and ', '12478E+02 are in scientific', 'notation']

sentence         = an indian number 12,45,782.258 in this.sentence and 45,78,325. is another
splitted eyquem  = ['an indian number 12,45,782.258 in this', 'sentence and 45,78,325. is another']
splitted eyqu 2  = ['an indian number 12,45,782.258 in this', 'sentence and 45,78,325. is another']
splitted gurney  = ['an indian number 12,45,782.258 in this', 'sentence and 45,78,325', ' is another']
splitted stema   = ['an indian number 12,45,782.258 in this', 'sentence and 45,78,325', ' is another']

sentence         = no dot in this sentence
splitted eyquem  = ['no dot in this sentence']
splitted eyqu 2  = ['no dot in this sentence']
splitted gurney  = ['no dot in this sentence']
splitted stema   = ['no dot in this sentence']

sentence         = 
splitted eyquem  = ['']
splitted eyqu 2  = ['']
splitted gurney  = ['']
splitted stema   = ['']


Я добавил simpler_regex , определяющий числа, из моего поста в этой теме

Я не обнаруживаю индийские цифры и цифры в научных обозначениях, но на самом деле это дает те же результаты

2 голосов
/ 19 июля 2011

вы можете использовать отрицательное утверждение, чтобы соответствовать "." не следует за цифрой, и используйте re.split на этом:

>>> import re
>>> splitter = r"\.(?!\d)"
>>> s = 'hyper count 16.8mmol/l.plz review b4 5pm.just to inform u.thank u'
>>> re.split(splitter, s)
['hyper count 16.8mmol/l', 'plz review b4 5pm', 'just to inform u', 'thank u']
>>> s = 'no of beds 8.please inform person in-charge.tq'
>>> re.split(splitter, s)
['no of beds 8', 'please inform person in-charge', 'tq']
1 голос
/ 19 июля 2011

Как насчет

re.split('(?<!\d)\.|\.(?!\d)', 'hyper count 16.8mmol/l.plz review b4 5pm.just to inform u.thank u')

Обозначения гарантируют, что ни на одной, ни на другой стороне не будет цифры.Так что это также относится и к делу 16.8.Это выражение не будет разделяться, если на обеих сторонах есть цифры.

0 голосов
/ 19 июля 2011

Это зависит от вашего точного предложения, но вы можете попробовать:


Посмотрите, работает ли это.Это сохранит в кавычках, но вы можете удалить их, если это необходимо.

0 голосов
/ 19 июля 2011

split - это встроенная функция Python, которая отделяет строку от определенного символа.
