spark on hive

2018-01-08

1、spark on hive介绍

（1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息
（2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
（3）接下来就可以通过spark sql来操作hive表中的数据
spark on hive步骤：
- 将hive-site.xml文件拷贝到所有spark安装目录下conf文件夹下
- 需要将mysql驱动包，拷贝到所有spark安装目录下的jars
如果是spark2.0之前，这个时候是已经将sparksql 与hive整合了。
如果是spark2.0之后，此时并没有完全整合，
- spark-sql –master spark://node1:7077 –executor-memory 1g –total-executor-cores 2 –conf spark.sql.warehouse.dir=hdfs://node1:9000/user/hive/warehouse

2、spark on hive 配置

（1）将hive安装目录下conf/hive-site.xml拷贝到spark的conf目录下
（2）同时把hive安装目录下lib目录中的mysql驱动包，拷贝到spark的jars目录下 （3）分发所有配置和拷贝mysql驱动到spark的其他节点
（4）启动spark-sql 就可以操作hive的sql语句了。 注意需要添加配置
- –conf spark.sql.warehouse.dir=hdfs://node1:9000/user/hive/warehouse

3、操作实例

执行命令：spark-sql –master spark://node1:7077 –executor-memory 1g –total–executor-cores 2 –conf spark.sql.warehouse.dir=hdfs://node1:9000/user/hive/warehouse
操作：
- show databases;

缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是yilia根目录）执行以下命令：
npm i hexo-generator-json-content --save

3、在根目录_config.yml里添加配置：

  jsonContent:
    meta: false
    pages: false
    posts:
      title: true
      date: true
      path: true
      text: false
      raw: false
      content: false
      slug: false
      updated: false
      comments: false
      link: false
      permalink: false
      excerpt: false
      categories: false
      tags: true

一个简单的自我介绍.渣渣程序员,页面效果一般,分类做的很差.如果想搜索,请点击所有文章.