草庐IT

apache-spark-2.3

全部标签

hadoop - Apache Pig - 如何提取记录集

我是ApachePig的新用户,我有以下数据order=0012,1,23order=0013,2,34,0015,1,45order=0011,1,456...我试图提取到以下记录0012,1,230013,2,340015,1,450011,1,456...下面是我试过的代码a=LOAD'a.txt'UsingTextLoader()AS(line:chararray);b=FOREACHaGENERATEFLATTEN(REGEX_EXTRACT_ALL(line,'order=((\\d+),(\\d+),(\\d+))+'))AS(order_item:chararray,o

hadoop - Apache Hive 中的字符集、口音、特殊字符

问题我的Hive表在某些行值中包含特殊字符(法语)时遇到了很多问题。基本上,在查询数据(通过HiveCLI或其他方法)时,所有特殊字符(如字母或其他变音符号上的重音)都会变成纯粹的乱码(各种奇怪的符号)。问题不在于列名,而在于实际的行值和内容。例如,我没有打印“Variat°”或任何其他特殊字符或重音符号,而是得到了这个结果(使用select语句时):Variat�cancel信息与sessionHive表是外部的,来自HDFS中以字符集iso-8859-1编码的CSV文件。更改原始文件编码字符集不会产生更好的结果。我在RedHatEnterprise6上使用Hortonworks

hadoop - 如何使用 hadoop 自定义输入格式调整 Spark 应用程序

我的spark应用程序使用自定义hadoop输入格式处理文件(平均大小为20MB),并将结果存储在HDFS中。以下是代码片段。Configurationconf=newConfiguration();JavaPairRDDbaseRDD=ctx.newAPIHadoopFile(input,CustomInputFormat.class,Text.class,Text.class,conf);JavaRDDmapPartitionsRDD=baseRDD.mapPartitions(newFlatMapFunction>,myClass>(){//mylogicgoeshere}//f

hadoop - Apache Spark JavaSchemaRDD 是空的,即使它的输入 RDD 有数据

我有大量超过40列的制表符分隔文件。我想对其应用聚合,只选择几列。我认为ApacheSpark是最好的选择,因为我的文件存储在Hadoop中。我有以下程序publicclassMyPOJO{intfield1;Stringfield2;etc}JavaSparkContextsc;JavaRDDdata=sc.textFile("path/input.csv");JavaSQLContextsqlContext=newJavaSQLContext(sc);JavaRDDrdd_records=sc.textFile(data).map(newFunction(){publicRecor

hadoop - 在 Apache pig 中读取压缩 (.xz) 文件

我正在尝试读取使用hadoop-xz压缩的.xz文件使用pig脚本的编解码器。我试过的示例代码是,REGISTERhadoop-xz-1.4.jarSEToutput.compression.enabledtrue;SEToutput.compression.codecio.sensesecure.hadoop.xz.XZCodec;msg=LOAD'pigtest/newXZ.xz'USINGPigStorage();STOREmsgINTO'pigtest/output'USINGPigStorage();DUMPmsg;结果仍然是压缩格式。我做错了吗,还是我必须在pig里面使用X

scala - Spark 流式传输多个套接字源

我是Spark的新手。对于我的项目,我需要合并来自不同端口上不同流的数据。为了测试我做了一个练习,目的是打印来自不同端口的流的数据。下面你可以看到代码:objecthello{defmain(args:Array[String]){valssc=newStreamingContext(newSparkConf(),Seconds(2))vallines9=ssc.socketTextStream("localhost",9999)vallines8=ssc.socketTextStream("localhost",9998)lines9.print()lines8.print()ssc

hadoop - Spark 错误 : Server IPC version 9 cannot communicate with client version 4

我运行的是hadoop2.7.0版本、scala2.10.4、java1.7.0_21和spark1.3.0我创建了一个如下所示的小文件hduser@ubuntu:~$cat/home/hduser/test_sample/sample1.txtEid1,EName1,EDept1,100Eid2,EName2,EDept1,102Eid3,EName3,EDept1,101Eid4,EName4,EDept2,110Eid5,EName5,EDept2,121Eid6,EName6,EDept3,99运行以下命令时出现错误。scala>valemp=sc.textFile("/hom

apache - 从 java 连接到 Hbase 时出错

我正在使用HBase版本1.0.1,同时我从java连接到hbase,我得到的错误是15/05/2512:12:57INFOzookeeper.ZooKeeper:Initiatingclientconnection,connectString=localhost:2181sessionTimeout=90000watcher=hconnection-0xc0663d0x0,quorum=localhost:2181,baseZNode=/hbaseExceptioninthread"main"java.io.IOException:java.lang.reflect.Invocati

java - 使用 hadoop 的 Apache Tez 配置

这是我所做的简而言之:第1步:我已经在笔记本电脑(单节点)上成功配置了hadoop2.6并运行了一个示例mapreduce作业。第2步:我克隆了tez存储库并成功构建了0.8.0版本并将jar文件复制到HDFS并导出了所需的变量。我还在mapred-site.xml中将变量mapreduce.framework.name的值更改为yarn-tez。但是当我想运行一个tezorderedwordcount作业时,我得到了这个错误:15/07/0418:45:03INFOipc.Client:Retryingconnecttoserver:hostname/hostIP:57339.Alr

java - spark submit 命令的命令行参数中是否有字符限制?

我还想知道在sparksubmit命令的参数中是否有任何特殊字符不能使用?我也想知道我们可以将整个嵌套的Json字符串传递给spark提交命令中的参数吗?另一个问题是如何使用java代码(来自另一个程序)运行spark程序?那么,我们是否必须在集群(安装了spark的linux机器)上运行我们的其他程序才能运行我的spark程序?这件事我太糊涂了;请提出建议。 最佳答案 对于你的第二个问题:另一个问题是如何使用java代码(来自另一个程序)运行spark程序?在你的java程序中如果你有一个Maven项目,你可以添加一个maven依