Набор данных NER для номера телефона - PullRequest
1 голос
/ 23 апреля 2020

Я пытаюсь создать набор данных NER Для телефонных номеров, таких как ' + 44 (0) 845 257 0422 ',

У меня есть теги телефонных номеров, обнаруженных с помощью регулярных выражений. когда я пытаюсь приговорить токенизатор, а затем слово токенизатор, номер телефона разделяется. поэтому я не могу сопоставить этот телефон с меткой, у кого есть идея сделать число одним словом без расщепления по nlp.

def custom_tokenizer(nlp):
infix_re = re.compile(r'''[.\,\?\:\;\...\‘\’\`\“\”\"\'~]''')
prefix_re = compile_prefix_regex(nlp.Defaults.prefixes)
suffix_re = compile_suffix_regex(nlp.Defaults.suffixes)
return Tokenizer(nlp.vocab, prefix_search=prefix_re.search,
                            suffix_search=suffix_re.search,
                            infix_finditer=infix_re.finditer,
                            token_match=None)

я пробовал эту функцию, чтобы она работала только для дефиса 239 -734-1608 число не делится. я ищу решение для этого номера + 44 (0) 845 257 0452

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...