博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
cloudera如何在spark-shell命令行执行spark hql
阅读量:6872 次
发布时间:2019-06-26

本文共 2983 字,大约阅读时间需要 9 分钟。

hot3.png

编译支持hive的spark assembly

原生的spark assembly jar是不依赖hive的,如果要使用spark hql必须将hive相关的依赖包打到spark assembly jar中来。打包方法:

假设已经装好了maven,

1添加环境变量,如果jvm的这些配置太小的话,可能导致在编译过程中出现OOM,因此放大一些:

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

2 将spark源码下的scalastyle-config.xml,复制到assembly下

3 cd到spark源码目录,执行:

mvn -Pyarn -Dhadoop.version=2.5.0-cdh5.3.0  -Dscala-2.10.4 -Phive -Phive-thriftserver   -DskipTests clean package

(用cdh版本的只要写 mvn -Pyarn -Phive -DskipTests clean package就可以了)

注意hadoop.version和scala的版本设置成对应的版本

经 过漫长的编译过程(我编译了2个半小时),最终成功了,在assembly/target/scala-2.10目录下面有spark- assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar文件,用rar打开看看hive jdbc package有没有包含在里面,有的话说明编译成功了。

cloudera如何在spark-shell命令行执行spark hql

前面介绍了

cloudera manager装好的spark,直接执行spark-shell进入命令行后,写入如下语句:

  1. val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)  

你会发现没法执行通过,因为cm装的原生的spark是不支持spark hql的,我们需要手动进行一些调整:
第一步,将编译好的包含hive的JAR包上传到hdfs上配置的默认的spark的sharelib目录:/user/spark/share/lib
07100656_J2z6.png
第二步:在你要运行spark-shell脚本的节点上的/opt/cloudera/parcels/CDH- 5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目录下面,下载这个jar到这个目录:hadoop fs -get hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar(具 体路径替换成你自己的)。然后这个目录下面原来会有个软链接spark-assembly.jar指向的是spark-assembly-1.2.0- cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar,我们把这个软链接删除掉重新创建一个同名的软链接:ln -s spark-assembly-with-hive-maven.jar spark-assembly.jar,指向我们刚下载下来的那个JAR包,这个JAR包会在启动spark-shell脚本时装载到driver program的classpath中去的,sparkContext也是在driver中创建出来的,所以需要将我们编译的JAR包替换掉原来的 spark-assembly.jar包,这样在启动spark-shell的时候,包含hive的spark-assembly就被装载到 classpath中去了。
第三步:在/opt/cloudera/parcels/CDH/lib/spark/conf/目录下面创建一个 hive-site.xml。/opt/cloudera/parcels/CDH/lib/spark/conf目录是默认的spark的配置目录,当 然你可以修改默认配置目录的位置。hive-site.xml内容如下:

  
    
hive.metastore.local
    
false
  
  
    
hive.metastore.uris
    
thrift://n1:9083
  
  
    
hive.metastore.client.socket.timeout
    
300
  
  
    
hive.metastore.warehouse.dir
    
/user/hive/warehouse
  

这个应该大家都懂的,总要让spark找到hive的元数据在哪吧,于是就有了上面一些配置。

第四步:修改/opt/cloudera/parcels/CDH/lib/spark/conf/spark- defaults.conf,添加一个属性:spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib /spark-assembly-with-hive-maven.jar。这个是让每个executor下载到本地然后装载到自己的classpath 下面去的,主要是用在yarn-cluster模式。local模式由于driver和executor是同一个进程所以没关系。
以上完事之后,运行spark-shell,再输入:
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
应该就没问题了。我们再执行一个语句验证一下是不是连接的我们指定的hive元数据库:
hiveContext.sql("show tables").take(10)   //取前十个表看看
最后要重点说明一下这里的第二步第三步和第四步,如果是yarn-cluster模式的话,应该替换掉集群所有节点的spark- assembly.jar集群所有节点的spark conf目录都需要添加hive-site.xml,每个节点spark-defaults.conf都需要添加 spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with- hive-maven.jar。可以写个shell脚本来替换,不然手动一个一个节点去替换也是蛮累的。

转载于:https://my.oschina.net/u/2288146/blog/475508

你可能感兴趣的文章
LeetCode——Largest Number
查看>>
shell的定义
查看>>
S5PV210的IRAM应用
查看>>
svn:database disk image is malformed问题解决方法
查看>>
开源工具DbUtils的使用(数据库的增删改查)
查看>>
Oracle性能分析3:TKPROF简介
查看>>
翻转字符串
查看>>
Ext.MessageBox消息框
查看>>
电脑知识:修电脑(转)
查看>>
jQuery 1.7.2 animate功能跨浏览器Bug修补
查看>>
HTML <map>标签的使用
查看>>
Android之dialog
查看>>
freebsd用法汇总[zz]
查看>>
tomcat 默认路径 和 默认起始页的设置
查看>>
去掉 Constraints
查看>>
8天学通MongoDB——第七天 运维技术
查看>>
How Do Annotations Work in Java?--转
查看>>
查看centos中的用户和用户组
查看>>
web.xml中常用元素的解读
查看>>
Direct-X学习笔记--纹理映射
查看>>