Я хочу обучить простое именованное средство распознавания сущностей в моем настраиваемом наборе данных.Я подготовил словарь Python, имеющий key = entity_type и список значений = имя сущности , но я не получаю никакого способа использовать теги токенов в нужном формате.
IЯ пробовал обычное сопоставление строк (поиск) и регулярное выражение (поиск, компиляция), но не получил желаемого.
Например: мое предложение и слова, которые я использую (это пример)
sentence = "Machine learning and data mining often employ the same methods
and overlap significantly."
dic = {'MLDM': ['machine learning and data mining'], 'ML': ['machine learning'],
'DM': ['data mining']}
for k,v in dic.items():
for val in v:
if val in sentence:
print(k, val, sentence.index(val)) #right now I'm just printing
#the key, val and starting index
output:
MLDM machine learning and data mining 0
ML machine learning 0
DM data mining 21
expected output: MLDM 0 32
so I can further prepare training data to train Spacy NER :
[{"content":"machine learning and data mining often employ the same methods
and overlap significantly.","entities":[[0,32,"MLDM"]]}