Question

Я пытаюсь создать набор данных NER Для телефонных номеров, таких как ' + 44 (0) 845 257 0422 ',

У меня есть теги телефонных номеров, обнаруженных с помощью регулярных выражений. когда я пытаюсь приговорить токенизатор, а затем слово токенизатор, номер телефона разделяется. поэтому я не могу сопоставить этот телефон с меткой, у кого есть идея сделать число одним словом без расщепления по nlp.

def custom_tokenizer(nlp):
infix_re = re.compile(r'''[.\,\?\:\;\...\‘\’\`\“\”\"\'~]''')
prefix_re = compile_prefix_regex(nlp.Defaults.prefixes)
suffix_re = compile_suffix_regex(nlp.Defaults.suffixes)
return Tokenizer(nlp.vocab, prefix_search=prefix_re.search,
                            suffix_search=suffix_re.search,
                            infix_finditer=infix_re.finditer,
                            token_match=None)

я пробовал эту функцию, чтобы она работала только для дефиса 239 -734-1608 число не делится. я ищу решение для этого номера + 44 (0) 845 257 0452

Набор данных NER для номера телефона

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Набор данных NER для номера телефона

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы