Orange Python: предварительная обработка текста - PullRequest
0 голосов
/ 17 марта 2019

Для моей диссертации я использую оранжевый V3.2, чтобы сделать некоторую предварительную обработку текста. У меня есть корпус, и я предварительно обработал текст. в основном мой выход:

Документ 6: WCO_CODE (корпус): 2208308200 COMMODITY_DESC (корпус): ID G292111135 WHISKEY 4000ML АЛКОГОЛЬНЫЙ ПРОЦЕНТ 43 Жетоны и теги: алкоголь id виски

Теперь, что я хочу сделать, это для всех документов, которые у меня есть, иметь 1 строку для всех одинаковых WCO_CODES и объединить токены.

например В документе 6 (см. Выше) и в документе X у меня есть

WCO_CODE: 2208308200 COMMODITY_DESC: ID G292111135 ВИНО 500 МЛ Жетоны и теги: WINE

в качестве вывода я хочу объединить различные токены / теги, соответствующие одному коду HS, в одну строку

WCO_CODE = 2208308200 и 'id виски алкогольное вино' в виде строки

Даже не уверен, что это возможно, я вижу там возможность написать какой-нибудь Python сценарий, но тогда мне нужно исследовать, как это сделать.

Если у кого-нибудь есть идеи?

Спасибо

...