草庐IT

Spark-Hive

全部标签

hadoop - 使用接收器和 WAL 的 Spark Kafka 集成

我正在阅读下面的Databricks博客https://databricks.com/blog/2015/03/30/improvements-to-kafka-integration-of-spark-streaming.html在解释sparkkafka集成如何使用接收器和WAl工作的过程时,它说1.TheKafkadataiscontinuouslyreceivedbyKafkaReceiversrunningintheSparkworkers/executors.Thisusedthehigh-levelconsumerAPIofKafka.2.Thereceiveddatai

hadoop - 过滤 hive 复杂数据类型

我使用配置单元创建了一个表我想过滤数据createtablestudent(idbigint,namestring,coursearray)ROWFORMATDELIMiTEDfieldsterminatedby'\t'collectionitemsterminatedby','STOREDASTEXTFILE;和类似的数据100student1java,.net,hadoop101student2.net,hadoop102student3java,hadoop103student4.net,hadoop104student5java,.net105student6java,.net

hadoop - 分区 hive 数据复杂数据类型,同时插入数据它显示错误

我使用hive创建了一个表,我想根据位置对数据进行分区createtablestudent(idbigint,namestring,locationstring,coursearray)ROWFORMATDELIMiTEDfieldsterminatedby'\t'collectionitemsterminatedby','storedastextfile;和类似的数据100student1ongolejava,.net,hadoop101student2hyderabad.net,hadoop102student3vizagjava,hadoop103student4ongole.n

hadoop - 在 yarn 集群模式 AccessControlException 上执行 Spark

我有一些Spark代码可以分析CSV文件中的输入数据集。当我在集群模式下运行它时,出现以下错误(在本地模式下它到目前为止工作正常)。我的问题是:局部变量是否会影响不同worker的并行执行?我使用本地文件作为输入。我必须使用HDFS文件吗?我相信RDD是并行化的,输入文件可以存储在本地文件系统中。Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Permissiondenied:user=xxx,access=WRITE,inode="/":hdfs:supergroup:drwxr-xr-

hadoop - Spark 提交,客户端无法通过 :[TOKEN, KERBEROS 进行身份验证];

我用kerberos设置了hadoop集群,但是当我运行spark-submit时,它抛出了异常。17/10/1908:46:53WARNscheduler.TaskSetManager:Losttask0.0instage0.0(TID0,192.168.92.4,executor1):java.io.IOException:Failedonlocalexception:java.io.IOException:org.apache.hadoop.security.AccessControlException:Clientcannotauthenticatevia:[TOKEN,KER

hadoop - Hive 加入 2 个表,一个有分区,另一个没有

我必须对表格假设表格一是X,表格二是Z。表Z有一个分区谓词。表X是一个国家/地区表,具有以下字段country_id,country_name表Z包含一些数据,我想将该表的country_id映射到表X。我试过了selectc.country_id,c.country_name,s.sales_id,s.sales_ctry_idfromx_tablecjoinz_tableson(c.country_id=s.sales_ctry_id)但是因为表Z是按日期字段分区的,所以我无法让这个连接工作。有什么建议吗? 最佳答案 您应该使用

scala - Spark : java. io.FileNotFoundException:copyMerge 中不存在文件

我正在尝试将所有spark输出部分文件合并到一个目录中,并在Scala中创建一个文件。这是我的代码:importorg.apache.spark.sql.functions.input_file_nameimportorg.apache.spark.sql.functions.regexp_extractdefmerge(srcPath:String,dstPath:String):Unit={valhadoopConfig=newConfiguration()valhdfs=FileSystem.get(hadoopConfig)FileUtil.copyMerge(hdfs,new

hadoop - 为子分区创建 Hive 表

我有一个带日期分区的配置单元表。这些日期从2017年1月1日开始。HDFS位置是按日期分区的。我如何创建一个仅考虑来自上述HDFS位置的5个日期的Hive表? 最佳答案 createtablenewtableasselectcolumn1,column2,column3fromoldtablewhereDateStamp>='2017-01-01'andDateStamp 关于hadoop-为子分区创建Hive表,我们在StackOverflow上找到一个类似的问题:

hadoop - 通过 spark job 创建 hive 表

我正在尝试在hadoop集群(BigInsight4.1发行版)上创建hive表作为我的spark(1.5.1版)作业的输出,但我面临权限问题。我的猜测是spark使用默认用户(在本例中为“yarn”而不是作业提交者的用户名)来创建表,因此未能这样做。我尝试自定义hive-site.xml文件以设置一个经过身份验证的用户,该用户有权创建配置单元表,但这没有用。我还尝试将Hadoop用户变量设置为经过身份验证的用户,但它也没有用。我想避免保存txt文件然后创建配置单元表以优化性能并通过orc压缩减小输出的大小。我的问题是:有什么方法可以调用sparkdataframeapi的write函

performance - Spark 。数据缓存?

我正在spark-shell中测试以下脚本-分区表的单分区扫描。vals=System.nanoTimevarq=s"""select*frompartitioned_tablewherepart_column='part_column_value'"""spark.sql(q).showprintln("Elapsed:"+(System.nanoTime-s)/1e9+"seconds")第一次执行大约需要30秒,而所有后续执行大约需要2秒。如果我们看一下运行时统计信息——在第一次执行之前还有两个额外的作业看起来有1212个阶段的作业扫描表中的所有分区(分区总数1199,该表的HD