草庐IT

apache-spark-1.6

全部标签

hadoop - httpfs for hadoop apache 下载

我在Centos7操作系统上使用ApacheHadoop-2.7.1。要设置HttpFs,这link建议安装HttpFs。我没有找到任何可用的二进制文件。有没有其他方法可以为Hadoop配置HttpFs? 最佳答案 HttpFs包含在ApacheHadoop本身的二进制tarball中。您无需单独下载。配置文件httpfs-env.sh和httpfs-site.xml位于$HADOOP_HOME/etc/hadoop/目录下。启动脚本httpfs.sh在$HADOOP_HOME/sbin/下。要配置HttpFs的嵌入式Tomcat,

hadoop - 使用 Spark 获取存储在 JSON 中的值列表的统计属性

我使用以下结构以JSON格式存储我的数据:{"generationId":1,"values":[-36.0431,-35.913,...,36.0951]}我想获取文件(generationIds)的平均值之间的间距分布(连续数字之间的差异)。我的zepplein笔记本中的第一行是:importorg.apache.spark.sql.SparkSessionvalwarehouseLocation="/user/hive/warehouse"valspark=SparkSession.builder().appName("test").config("spark.sql.wareh

hadoop - 错误 1070 : Could not resolve toDate using imports: [, java.lang., > org.apache.pig.builtin., org.apache.pig.impl.builtin.]

使用pig将数据转换为日期时间时出现问题。导入以下数据集,制表符分隔,我添加了\t来说明。5000001\t1133938\t1273719\t2008-06-0100:03:35.0我想获取最后一个值(2008-06-0100:03:35.0)并提取月份。将其加载为DateTime会生成一个空白字段。因此,我想将其导入为字符数组,然后使用toDate将其转换为我可以在其上使用getMonth的日期时间字段。当我在shell中尝试时,我得到了这个:grunt>orders=load'/home/cloudera/Desktop/orders1'usingPigStorage('\t')

scala - 使用 Spark 在 HDFS 上压缩 Har 文件

我有大量的hadoop存档.har格式的数据。因为har不包含任何压缩,所以我试图进一步将其压缩并存储在HDFS中。我唯一可以毫无错误地开始工作的是:harFile.coalesce(1,"true").saveAsTextFile("hdfs://namenode/archive/GzipOutput",classOf[org.apache.hadoop.io.compress.GzipCodec])//`coalesce`becauseGzipisn'tsplittable.但是,这并没有给我正确的结果。生成了一个Gzipped文件,但输出无效(单行说明rdd类型等)任何帮助将不胜

Apache hive 服务器 2 配置

我正在尝试配置apachehiveserver2我的配置文件在hive-site.xmlhive.server2.thrift.min.worker.threads5Minimumnumberofworkerthreadshive.server2.thrift.max.worker.threads500Maximumnumberofworkerthreadshive.server2.thrift.port10000TCPportnumbertolistenonhiver.server2.thrift.bind.host10.89.20.22TCPinterfacetobindtohiv

scala - 使用 Spark 和 Scala 将数据插入 Hive 表时出现问题

我是Spark的新手。这是我想做的事情。我创建了两个数据流;第一个从文本文件中读取数据并使用hivecontext将其注册为temptable。另一个不断从Kafka获取RDD,对于每个RDD,它创建数据流并将内容注册为temptable。最后,我将这两个临时表连接到一个键上以获得最终结果集。我想将该结果集插入配置单元表中。但我没有想法。试图遵循一些示例,但只在配置单元中创建一个包含一列的表,而且该表也不可读。你能告诉我如何在特定的数据库和配置单元表中插入结果吗?请注意,我可以使用show函数看到连接的结果,因此真正的挑战在于插入配置单元表。下面是我使用的代码。imports.....

sql - 在 Apache Pig 中计算连接表中的总和

我从Hive加载以下三个表:books=LOAD'books'USINGorg.apache.hive.hcatalog.pig.HCatLoader()AS(isbn_b:chararray,booktitle:chararray,author:chararray,pubyear:chararray,publisher:chararray,urls:chararray,urlm:chararray,urll:chararray);users=LOAD'users'USINGorg.apache.hive.hcatalog.pig.HCatLoader()AS(id_u:chararr

hadoop - Spark 数据集写入 HDFS 期间创建的空分区

尝试使用write方法将数据集/数据帧作为Parquet保存到hdfs。分区在HDFS中创建,但数据为空。我正在使用Spark版本-2.xdataset.write.mode("append").partitionBy("empNo").format("parquet").save("hdfspath")或dataset.write.mode(SaveMode.Overwrite).save("hdfspath")请推荐 最佳答案 我刚刚检查了它的数据框。根据您的查询将其分区在单个列上。在具有适当值的输出文件夹中创建了两个分区文件夹

尝试将 Spark RDD 存储到 HBase 时出现 java.io.FileNotFoundException

我正在尝试将一些数据从HDFS加载到HBase,如下所示:Stringdir="/tmp/eloued";Configurationconfig=HBaseConfiguration.create();config.set(SequenceFileInputFormat.INPUT_DIR,dir);//serializationconfig.setStrings("io.serializations",config.get("io.serializations"),MutationSerialization.class.getName(),ResultSerialization.cl

apache - Hive 版本模式

我正在浏览Hive发行版本,观察到Hive版本的模式似乎有点连线。在2015年6月27日发布1.2.1之后,下一个版本是2016年2月15日的2.0,并且版本继续。同样在2017年4月7日,即最近Hive再次发布了1.2.2版本。我不明白为什么又是1.2.2而不是2.x.y。有人能解释一下吗。提前致谢。 最佳答案 您在附上的屏幕截图中有答案。有2条产品线。Hive1.x适用于Hadoop1.x.y和Hadoop2.x.yHive2.x仅适用于Hadoop2.x.yhttps://hive.apache.org/downloads.h