1、spark on hive介绍
- (1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息
- (2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
- (3)接下来就可以通过spark sql来操作hive表中的数据
- spark on hive步骤:
- 将hive-site.xml文件拷贝到所有spark安装目录下conf文件夹下
- 需要将mysql驱动包,拷贝到所有spark安装目录下的jars
- 如果是spark2.0之前,这个时候是已经将sparksql 与hive整合了。
- 如果是spark2.0之后,此时并没有完全整合,
- spark-sql –master spark://node1:7077 –executor-memory 1g –total-executor-cores 2 –conf spark.sql.warehouse.dir=hdfs://node1:9000/user/hive/warehouse
2、spark on hive 配置
- (1)将hive安装目录下conf/hive-site.xml拷贝到spark的conf目录下
(2)同时把hive安装目录下lib目录中的mysql驱动包,拷贝到spark的jars目录下 (3)分发所有配置和拷贝mysql驱动到spark的其他节点
(4) 启动spark-sql 就可以操作hive的sql语句了。 注意需要添加配置- –conf spark.sql.warehouse.dir=hdfs://node1:9000/user/hive/warehouse
3、操作实例
- 执行命令:spark-sql –master spark://node1:7077 –executor-memory 1g –total–executor-cores 2 –conf spark.sql.warehouse.dir=hdfs://node1:9000/user/hive/warehouse
- 操作:
- show databases;