Используйте Regexp_Extract функцию и соответствующее регулярное выражение Java для извлечения значения до <BR>.
Выражение регулярного выражения:
(.*?)\\s+<BR> //capture without space until <BR>
Запрос улья:
hive> select regexp_extract(<column.name>,"(.*?)\\s+<BR>",1) from <db.name>.<tab.name>;
Пример: * ** 1022 тысячу двадцать одна *
hive> select regexp_extract(txt,"(.*?)\\s+<BR>",1),txt from i;
+----------+---------------------------------------------------------------------------------------------------------------------------------------------+--+
| _c0 | txt |
+----------+---------------------------------------------------------------------------------------------------------------------------------------------+--+
| ABC3170 | ABC3170 <BR></DIV><DIV DIR="AUTO" STYLE="DIRECTION: LTR; MARGIN: 0; PADDING: 0; FONT-FAMILY: SANS-SERIF; FONT-SIZE: 11PT; COLOR: BLACK; "> |
+----------+---------------------------------------------------------------------------------------------------------------------------------------------+--+