编译支持hive的spark assembly
原生的spark assembly jar是不依赖hive的,如果要使用spark hql必须将hive相关的依赖包打到spark assembly jar中来。打包方法:
假设已经装好了maven,
1添加环境变量,如果jvm的这些配置太小的话,可能导致在编译过程中出现OOM,因此放大一些:
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
2 将spark源码下的scalastyle-config.xml,复制到assembly下
3 cd到spark源码目录,执行:
mvn -Pyarn -Dhadoop.version=2.5.0-cdh5.3.0 -Dscala-2.10.4 -Phive -Phive-thriftserver -DskipTests clean package
(用cdh版本的只要写 mvn -Pyarn -Phive -DskipTests clean package就可以了)
注意hadoop.version和scala的版本设置成对应的版本
经 过漫长的编译过程(我编译了2个半小时),最终成功了,在assembly/target/scala-2.10目录下面有spark- assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar文件,用rar打开看看hive jdbc package有没有包含在里面,有的话说明编译成功了。
cloudera如何在spark-shell命令行执行spark hql
前面介绍了
cloudera manager装好的spark,直接执行spark-shell进入命令行后,写入如下语句:val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
hive.metastore.local false hive.metastore.uris thrift://n1:9083 hive.metastore.client.socket.timeout 300 hive.metastore.warehouse.dir /user/hive/warehouse
这个应该大家都懂的,总要让spark找到hive的元数据在哪吧,于是就有了上面一些配置。
第四步:修改/opt/cloudera/parcels/CDH/lib/spark/conf/spark- defaults.conf,添加一个属性:spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib /spark-assembly-with-hive-maven.jar。这个是让每个executor下载到本地然后装载到自己的classpath 下面去的,主要是用在yarn-cluster模式。local模式由于driver和executor是同一个进程所以没关系。以上完事之后,运行spark-shell,再输入:val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc) 应该就没问题了。我们再执行一个语句验证一下是不是连接的我们指定的hive元数据库:hiveContext.sql("show tables").take(10) //取前十个表看看最后要重点说明一下这里的第二步第三步和第四步,如果是yarn-cluster模式的话,应该替换掉集群所有节点的spark- assembly.jar集群所有节点的spark conf目录都需要添加hive-site.xml,每个节点spark-defaults.conf都需要添加 spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with- hive-maven.jar。可以写个shell脚本来替换,不然手动一个一个节点去替换也是蛮累的。