Для моей диссертации я использую оранжевый V3.2, чтобы сделать некоторую предварительную обработку текста.
У меня есть корпус, и я предварительно обработал текст.
в основном мой выход:
Документ 6:
WCO_CODE (корпус): 2208308200
COMMODITY_DESC (корпус): ID G292111135 WHISKEY 4000ML АЛКОГОЛЬНЫЙ ПРОЦЕНТ 43
Жетоны и теги: алкоголь id виски
Теперь, что я хочу сделать, это для всех документов, которые у меня есть, иметь 1 строку для всех одинаковых WCO_CODES и объединить токены.
например
В документе 6 (см. Выше) и в документе X у меня есть
WCO_CODE: 2208308200
COMMODITY_DESC: ID G292111135 ВИНО 500 МЛ
Жетоны и теги: WINE
в качестве вывода я хочу объединить различные токены / теги, соответствующие одному коду HS, в одну строку
WCO_CODE = 2208308200 и 'id виски алкогольное вино' в виде строки
Даже не уверен, что это возможно, я вижу там возможность написать какой-нибудь Python
сценарий, но тогда мне нужно исследовать, как это сделать.
Если у кого-нибудь есть идеи?
Спасибо