草庐IT

take_while

全部标签

java.lang.NumberFormatException : For input string: "100" while executing MapReduce 异常

我正在编写一个MapReduce作业,用于在facebook上寻找共同的friend。这是我的映射器的输入:100,200300400500600200,100300400300,100200400500400,100200300500,100300600,100这是我的映射器代码的一部分:map{Stringline=value.toString();String[]LineSplits=line.split(",");String[]friends=LineSplits[1].trim().split("");for(inti=0;i当我执行此操作时,我在friend2中获得了正确

shell - Oozie 和 Hue : Permission Denied while running shell script

我在HDFS/user/user中有一个shell脚本sample_shell.sh,如下所示:source/user/user/params_new.cfgecho"HELLOWORLD"echo$layerparams_new.cfg也位于HDFS/user/user目录中,其内容为:layer="S"我是Oozie的新手,正在尝试在Hue中设置一个Oozie工作流程,它将执行sample_shell.sh脚本。属性如下:${jobTracker}${nameNode}/user/user/sample_shell.sh/user/user/sample_shell.sh#samp

scala - 为什么 lines.map 不起作用,但 lines.take.map 在 Spark 中起作用?

我是Scala和Spark的新手。我正在练习SparkHdfsLR.scalacode.但是我在这段代码中遇到了问题:60vallines=sc.textFile(inputPath)61valpoints=lines.map(parsePoint_).cache()62valITERATIONS=args(2).toInt第61行不起作用。在我把它改成这样之后:60vallines=sc.textFile(inputPath)61valpoints=lines.take(149800).map(parsePoint_)//149800isthetotalnumberoflines62

java - hadoop java.io.IOException : while running namenode -format on OSX 错误

我在格式化namenode时遇到以下错误,我已经尝试使用sudosu,正如其他一些堆栈溢出解决方案中提到的那样,但我仍然遇到此错误,请协助。14/01/1616:10:41INFOutil.GSet:ComputingcapacityformapINodeMap14/01/1616:10:41INFOutil.GSet:VMtype=64-bit14/01/1616:10:41INFOutil.GSet:1.0%maxmemory=889MB14/01/1616:10:41INFOutil.GSet:capacity=2^20=1048576entries14/01/1616:10:4

json - 风筝SDK : Getting error while Json-import

我在使用kitesdk导入json时遇到问题。使用命令生成avro模式:./kite-datasetjson-schema/vagrant/satyam/kite/restaurant-sample.json-osample.avsc--record-nameHGW然后通过命令在hdfs文件系统中创建数据集:./kite-datasetcreatedataset:hdfs:/user/falcon/datasets/hgw--schemasample.avsc要导入JSON文件,我正在运行以下命令:./kite-dataset-vjson-import/vagrant/satyam/k

vector - java.lang.OutOfMemoryError : Java heap space error while running seq2sparse in mahout 错误

我正在尝试在mahout中使用k-means对一些手工制作的日期进行聚类。我创建了6个文件,每个文件中几乎没有1或2个单词的文本。使用./mahoutseqdirectory从它们中创建一个序列文件。在尝试使用./mahoutseq2sparse命令将序列文件转换为向量时,出现java.lang.OutOfMemoryError:Javaheapspace错误。序列文件大小为0.215KB。命令:./mahoutseq2sparse-imokha/output-omokha/vector-ow错误日志:SLF4J:ClasspathcontainsmultipleSLF4Jbindin

hadoop - 画面 : Error while using Impala to connect to Cloudera Hadoop

我正在研究如何使用Tableau连接到ClouderaHadoop。我提供服务器和端口详细信息并使用“Impala”进行连接。我能够成功连接,选择默认模式并选择所需的表。在此之后,当我将维度或度量拖放到“网格”上的行/列时,出现以下错误:[Cloudera][Hardy](22)来自ThriftHiveClient的错误:查询返回非零代码:10025,原因:失败:SemanticException[错误10025]:第1:7行表达式不在GROUPBY键中''.但是,如果我尝试使用与“HiveServer”(而不是“Impala”)相同的连接类型,它工作正常。我们不确定哪里出错了。非常感

eclipse 中的 java.lang.NoSuchFieldError : IBM_JAVA error while running hadoop 2. 2.0

Exceptioninthread"main"java.lang.NoSuchFieldError:IBM_JAVAatorg.apache.hadoop.security.UserGroupInformation.getOSLoginModuleName(UserGroupInformation.java:303)atorg.apache.hadoop.security.UserGroupInformation.(UserGroupInformation.java:348)atorg.apache.hadoop.fs.FileSystem$Cache$Key.(FileSystem.

bash - JQ,Hadoop : taking command from a file

我一直在享受JQ(Doc)提供的强大过滤器。Twitter的公共(public)API提供格式良好的json文件。我可以访问其中的大量内容,并且可以访问Hadoop集群。在那里,我决定不使用Elephantbird将它们加载到Pig中,而是在mapperstreaming中尝试JQ看看它是否更快。这是我的最终查询:nohuphadoopjar$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.5.1.jar\-files$HOME/bin/jq\-Dmapreduce.map.memory.mb=2048\-Dmapred.ou

amazon-web-services - 亚马逊 S3 错误代码 : 400 while running mr-job on EMR

在EMR上运行自定义jar时出现此错误。Exceptioninthread"main"com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:BadRequest(Service:AmazonS3;StatusCode:400;ErrorCode:400BadRequest;RequestID:B042BB0B40A75966),S3ExtendedRequestID:vr/DUr8HD3xjomauyzqvVdGuW3fHBP8PDUmTIAoVLUxrmsxh9H+OS