Мы используем искры для нашей повседневной деятельности. Во время обработки мы хотим извлечь географическую информацию на основе некоторых регулярных выражений из столбца описания. Мы попытались выяснить регулярные выражения, с помощью которых мы можем извлечь информацию о CITY, и в результате мы получили сотни регулярных выражений для каждого города CA, NY, et c.
Мы создали отображение регулярных выражений для городов CA и NY и т. Д. И загрузили эти данные в искру с помощью широкого преобразования. Энн использовала эти правила в пользовательских файлах udf для извлечения информации о городе.
Проблема заключается в том, что когда правила увеличиваются, время выполнения начинает увеличиваться, поэтому ищем какой-то вариант, когда правила могут выполняться распределенным образом.
Мы можем распространить извлечение данных на основе того же правила и на другие поля.
Я также попробовал искру интеграции "Drools", если я не найду оптимизированного решения, я могу go с этим.
С нетерпением жду !!!
R, Kri sh