У меня большой (~ 50 тыс.) Список терминов, и некоторые из этих ключевых фраз / терминов имеют соответствующие сокращения / аббревиатуры.Мне нужен быстрый способ найти аббревиатуру или расширенную аббревиатуру (т.е. MS -> Microsoft), а затем заменить ее на полную расширенную аббревиатуру + аббревиатуру (т.е. Microsoft -> Microsoft (MS) или MS -> Microsoft (MS)).
Я очень плохо знаком с spaCy, поэтому мой наивный подход заключался в том, чтобы использовать spacy_lookup и использовать как сокращение, так и расширенное сокращение в качестве ключевых слов, а затем использовать какой-то вид расширение конвейера , чтобы затем пройти через совпадения и заменить их полностью развернутой аббревиатурой + аббревиатурой.
Есть ли лучший способ пометки и разрешения аббревиатур / аббревиатур в spaCy?