Искровой код:
from pyspark import SparkContext,SparkConf
from pyspark.sql import HiveContext
conf=SparkConf().setAppName("hive_test")
sc = SparkContext(conf=conf)
sqlcontext=HiveContext(sc)
sqlcontext.sql("create table if not exists hive_test(sid INT,age STRING)row format delimited fields terminated by '\001' lines terminated by '\n'")
sqlcontext.sql("load data local inpath '/home/hduser/sangam/hive_test.txt' into table hive_test")
sqlcontext.sql("select * from hive_test").show()
Набор данных:
Данные разделены табуляцией, и я получаю ожидаемый результат при запускечерез улей.
1 sangam
2 bunny
3 samik
Вывод:
+----+-----+
| key|value|
+----+-----+
|null| null|
|null| null|
|null| null|
+----+-----+