Я пытаюсь создать набор данных NER Для телефонных номеров, таких как ' + 44 (0) 845 257 0422 ',
У меня есть теги телефонных номеров, обнаруженных с помощью регулярных выражений. когда я пытаюсь приговорить токенизатор, а затем слово токенизатор, номер телефона разделяется. поэтому я не могу сопоставить этот телефон с меткой, у кого есть идея сделать число одним словом без расщепления по nlp.
def custom_tokenizer(nlp):
infix_re = re.compile(r'''[.\,\?\:\;\...\‘\’\`\“\”\"\'~]''')
prefix_re = compile_prefix_regex(nlp.Defaults.prefixes)
suffix_re = compile_suffix_regex(nlp.Defaults.suffixes)
return Tokenizer(nlp.vocab, prefix_search=prefix_re.search,
suffix_search=suffix_re.search,
infix_finditer=infix_re.finditer,
token_match=None)
я пробовал эту функцию, чтобы она работала только для дефиса 239 -734-1608 число не делится. я ищу решение для этого номера + 44 (0) 845 257 0452