Как переобучить существующую пространственную модель NER для валюты - PullRequest
0 голосов
/ 05 мая 2018

Я пытаюсь обновить существующую пространственную модель "en_core_web_sm" с помощью другой валюты страны, такой как "евро", "рупии", "ЕС", "рупии", "INR" и т. Д. Как я могу этого достичь? Простое учебное пособие не очень помогло мне, так как тренировка фиксированной строки, такой как «лошади», как «ЖИВОТНОЕ», кажется, отличается от моих требований. Причина в том, что я могу указывать значения валют в разных форматах: «1 миллион евро», «10000 рупий», «1 тысяча рупий» и т. Д. Мой набор данных содержит около 1000 выборок в следующем формате:

TRAIN_DATA = [      
 (" You have activated International transaction limit for Debit Card ending XXXX1137 on 2017-07-05 12:48:20.0 via NetBanking. The new limit is Rs. 250,000.00", {'entities' : [(140, 154, 'MONEY')] }),...
]

Может ли кто-нибудь помочь мне с этим с форматом данных, размером обучения или любой другой соответствующей информацией?

1 Ответ

0 голосов
/ 07 мая 2018

Пример из документации должен работать у вас. Я немного изменил его, чтобы он соответствовал имени вашей переменной.

optimizer = nlp.begin_training()

for itn in range(100):
    random.shuffle(train_data)
    for raw_text, entity_offsets in TRAIN_DATA:
        doc = nlp.make_doc(raw_text)
        gold = GoldParse(doc, entities=entity_offsets)
        nlp.update([doc], [gold], drop=0.5, sgd=optimizer)
nlp.to_disk('/model')

Ссылка на документацию

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...