Как разобрать XML-данные через улей с помощью serde? - PullRequest
0 голосов
/ 19 марта 2019

У меня есть XML-файл с такими данными:

<book>
    <author>Gambardella, Matthew</author>
    <title>XML Developer's Guide</title>
    <genre>Computer</genre>
    <price discount="0.15">44.95</price>
    <publish_date>2000-10-01</publish_date>
    <description>An in-depth look at creating applications with XML.</description>
</book>
<book>
    <author>Knorr, Stefan</author>
    <title>Creepy Crawlies</title>
    <genre>Horror</genre>
    <price discount="0.15">4.95</price>
    <publish_date>2000-12-06</publish_date>
    <description>An anthology of horror stories about roaches,centipedes, scorpionsand other insects.</description>
</book>
<book>
    <author>Galos, Mike</author>
    <title>Visual Studio 7: A Comprehensive Guide</title>
    <genre>Computer</genre>
    <price discount="0.15">49.95</price>
    <publish_date>2001-04-16</publish_date>
    <description>Microsoft Visual Studio 7 is explored in depth, looking at how Visual Basic, Visual C++, C#, and ASP+ are integrated into a comprehensive development environment.</description>
</book>

Я пытаюсь проанализировать xml через куст, создавая внешнюю таблицу поверх файла xml в hdfs, используя serde. Пожалуйста, найдите мой код ниже

Я впервые добавил банку

add jar hdfs://xtlinno1vftsnxg:8020/user/hdfs/hivexmlserde-1.0.5.3.jar;

CREATE EXTERNAL TABLE hive_test_xml(
. . . . . . . . . . . . . . . . . . . . . . .> col1            string,
. . . . . . . . . . . . . . . . . . . . . . .> col2            string,
. . . . . . . . . . . . . . . . . . . . . . .> col3            string)
. . . . . . . . . . . . . . . . . . . . . . .> ROW FORMAT SERDE 'com.ibm.spss.hive.serde2.xml.XmlSerDe'
. . . . . . . . . . . . . . . . . . . . . . .> WITH SERDEPROPERTIES (
. . . . . . . . . . . . . . . . . . . . . . .> "column.xpath.col1"="/book/author/text()",
. . . . . . . . . . . . . . . . . . . . . . .> "column.xpath.col2"="/book/title/text()",
. . . . . . . . . . . . . . . . . . . . . . .> "column.xpath.col3"="/book/genre/text()"
. . . . . . . . . . . . . . . . . . . . . . .> )
. . . . . . . . . . . . . . . . . . . . . . .> STORED AS
. . . . . . . . . . . . . . . . . . . . . . .> INPUTFORMAT 'com.ibm.spss.hive.serde2.xml.XmlInputFormat'
. . . . . . . . . . . . . . . . . . . . . . .> OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat'
. . . . . . . . . . . . . . . . . . . . . . .> LOCATION 'hdfs://xtlinno1vftsnxg:8020/user/poctest2/testxml2.xml'
. . . . . . . . . . . . . . . . . . . . . . .> TBLPROPERTIES (
. . . . . . . . . . . . . . . . . . . . . . .> "xmlinput.start"="<book",
. . . . . . . . . . . . . . . . . . . . . . .> "xmlinput.end"="</book>");

ошибка, которую я получаю:

Ошибка выполнения, код возврата 1 из org.apache.hadoop.hive.ql.exec.DDLTask. org / apache / hadoop / hive / serde2 / SerDe (состояние = 08S01, код = 1)

Я не уверен, как решить эту ошибку .. Пожалуйста, помогите !!

1 Ответ

0 голосов
/ 10 апреля 2019

Скорее всего, metastore_db поврежден. Установите проверку, чтобы игнорировать и восстанавливать имя таблицы в metastore.

set hive.msck.path.validation=ignore;
MSCK REPAIR TABLE table_name;
...