草庐IT

spark-hive

全部标签

amazon-web-services - 如何使用 "s3a://"方案让 Hive 2.2.1 成功与 AWS S3 集成

我遵循了各种已发布的文档,了解如何使用s3a://方案将ApacheHive2.1.1与AWSS3集成,配置fs.s3a.access.key和fs.s3a.secret.key用于hadoop/etc/hadoop/core-site.xml和hive/conf/hive-site.xml.我现在可以让hdfsdfs-lss3a://[bucket-name]/正常工作(它返回那个桶的s3ls)。所以我知道我的信用、存储桶访问和整体Hadoop设置是有效的。hdfsdfs-lss3a://[bucket-name]/drwxrwxrwx-hdfshdfs02017-06-2722:4

scala - 如何使用 spark 在 Hive 中正确加载数据?

我想输入看起来像-"58;""management"";""married"";""tertiary"";""no"";2143;""yes"";""no"";""unknown"";5;""may"";261;1;-1;0;""unknown"";""no""""44;""technician"";""single"";""secondary"";""no"";29;""yes"";""no"";""unknown"";5;""may"";151;1;-1;0;""unknown"";""no""""33;""entrepreneur"";""married"";""secondar

hadoop - 使用接收器和 WAL 的 Spark Kafka 集成

我正在阅读下面的Databricks博客https://databricks.com/blog/2015/03/30/improvements-to-kafka-integration-of-spark-streaming.html在解释sparkkafka集成如何使用接收器和WAl工作的过程时,它说1.TheKafkadataiscontinuouslyreceivedbyKafkaReceiversrunningintheSparkworkers/executors.Thisusedthehigh-levelconsumerAPIofKafka.2.Thereceiveddatai

hadoop - 过滤 hive 复杂数据类型

我使用配置单元创建了一个表我想过滤数据createtablestudent(idbigint,namestring,coursearray)ROWFORMATDELIMiTEDfieldsterminatedby'\t'collectionitemsterminatedby','STOREDASTEXTFILE;和类似的数据100student1java,.net,hadoop101student2.net,hadoop102student3java,hadoop103student4.net,hadoop104student5java,.net105student6java,.net

hadoop - 分区 hive 数据复杂数据类型,同时插入数据它显示错误

我使用hive创建了一个表,我想根据位置对数据进行分区createtablestudent(idbigint,namestring,locationstring,coursearray)ROWFORMATDELIMiTEDfieldsterminatedby'\t'collectionitemsterminatedby','storedastextfile;和类似的数据100student1ongolejava,.net,hadoop101student2hyderabad.net,hadoop102student3vizagjava,hadoop103student4ongole.n

hadoop - 在 yarn 集群模式 AccessControlException 上执行 Spark

我有一些Spark代码可以分析CSV文件中的输入数据集。当我在集群模式下运行它时,出现以下错误(在本地模式下它到目前为止工作正常)。我的问题是:局部变量是否会影响不同worker的并行执行?我使用本地文件作为输入。我必须使用HDFS文件吗?我相信RDD是并行化的,输入文件可以存储在本地文件系统中。Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Permissiondenied:user=xxx,access=WRITE,inode="/":hdfs:supergroup:drwxr-xr-

hadoop - Spark 提交,客户端无法通过 :[TOKEN, KERBEROS 进行身份验证];

我用kerberos设置了hadoop集群,但是当我运行spark-submit时,它抛出了异常。17/10/1908:46:53WARNscheduler.TaskSetManager:Losttask0.0instage0.0(TID0,192.168.92.4,executor1):java.io.IOException:Failedonlocalexception:java.io.IOException:org.apache.hadoop.security.AccessControlException:Clientcannotauthenticatevia:[TOKEN,KER

hadoop - Hive 加入 2 个表,一个有分区,另一个没有

我必须对表格假设表格一是X,表格二是Z。表Z有一个分区谓词。表X是一个国家/地区表,具有以下字段country_id,country_name表Z包含一些数据,我想将该表的country_id映射到表X。我试过了selectc.country_id,c.country_name,s.sales_id,s.sales_ctry_idfromx_tablecjoinz_tableson(c.country_id=s.sales_ctry_id)但是因为表Z是按日期字段分区的,所以我无法让这个连接工作。有什么建议吗? 最佳答案 您应该使用

scala - Spark : java. io.FileNotFoundException:copyMerge 中不存在文件

我正在尝试将所有spark输出部分文件合并到一个目录中,并在Scala中创建一个文件。这是我的代码:importorg.apache.spark.sql.functions.input_file_nameimportorg.apache.spark.sql.functions.regexp_extractdefmerge(srcPath:String,dstPath:String):Unit={valhadoopConfig=newConfiguration()valhdfs=FileSystem.get(hadoopConfig)FileUtil.copyMerge(hdfs,new

hadoop - 为子分区创建 Hive 表

我有一个带日期分区的配置单元表。这些日期从2017年1月1日开始。HDFS位置是按日期分区的。我如何创建一个仅考虑来自上述HDFS位置的5个日期的Hive表? 最佳答案 createtablenewtableasselectcolumn1,column2,column3fromoldtablewhereDateStamp>='2017-01-01'andDateStamp 关于hadoop-为子分区创建Hive表,我们在StackOverflow上找到一个类似的问题: