草庐IT

未知数

全部标签

apache-spark - java.lang.IllegalArgumentException 在 org.apache.xbean.asm5.ClassReader.<init>(未知来源)与 Java 10

每当我尝试收集我的rdd时,我就开始收到以下错误。我安装Java10.1后就发生了所以当然是把它拿出来重新安装,同样的错误。然后我安装了Java9.04同样的错误。然后我撕掉了python2.7.14,apachespark2.3.0和Hadoop2.7,同样的错误。有没有人有任何其他原因导致我不断收到错误消息?>>>fromoperatorimportadd>>>frompysparkimportSparkConf,SparkContext>>>importstring>>>importsys>>>importre>>>>>>sc=SparkContext(appName="NEW"

java - 由于某些未知原因,Spark 作业在 saveAsHadoopDataset 阶段失败,因为执行器丢失

我有一个在yarn上运行的spark作业,它处理大约150gb的数据集,并进行多次随机播放操作,最后将数据存储到hbase中。它在saveAsHadoopDataset处一直失败基本上,多个执行程序在报告高GCActivity后在此阶段失败。但是,执行程序日志、驱动程序日志或节点管理器日志均未指示任何OutOfMemory错误或GCOverheadExceeded错误或超出内存限制错误。我在sparkui中也没有看到执行器失败的任何其他原因。valhConf=HBaseConfiguration.createhConf.setInt("hbase.client.scanner.cach

hadoop - Spark-Streaming CustomReceiver 未知主机异常

我是SparkStreaming的新手。我想在线流式传输url以便从某个URL检索信息,我使用JavaCustomReceiver来流式传输url。这是我正在使用的代码(source)publicclassJavaCustomReceiverextendsReceiver{privatestaticfinalPatternSPACE=Pattern.compile("");publicstaticvoidmain(String[]args)throwsException{SparkConfsparkConf=newSparkConf().setAppName("JavaCustomRe

java - 在 Map-reduce 输出文件中获取未知整数值

我正在开发一个hadoopmap-reduce程序,我没有设置映射器和缩减器,也没有为我的程序的作业配置设置任何其他参数。我这样做是假设作业会将与输入相同的输出发送到输出文件。但是我发现它在输出文件中打印了一些虚拟整数值,每一行都用制表符分隔(我猜)。这是我的代码:importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hadoop.mapreduce.lib.input.FileInput

hadoop - 来自集群未知主机名的主机的 Spark YARN 客户端作业?

我有一些私有(private)主机可以从YARN集群中通过IP而不是通过主机名可见。当他们尝试以YARN客户端模式提交任何Spark作业时,会尝试从集群连接驱动程序主机。由于默认情况下spark.driver.host配置为本地主机名,因此失败。那么有什么好的选择来处理这个问题吗?诸如自动将``spark.driver.host`设置为用于连接到集群的客户端IP接口(interface)地址之类的东西?正确的DNS解析不是选项。不可能。 最佳答案 基于此http://spark.apache.org/docs/latest/conf

java - Lucidworks 保存 solr 格式未知字段

我正在用sparkjava编写脚本。我需要使用Lucidworks-spark-solr工具(https://github.com/lucidworks/spark-solr)将数据(从DataFrame)插入到Solr集合中我的schema.xml:id我的数据框:DataFramedf=sqlContext.sql("SELECTid,age,height,nameFROMTABLE");df.show()给出:+--------------------+-----------+------+------+|id|age|height|name|+-----------------

hadoop - ssh:无法解析主机名。名称或服务未知

我正在尝试在我的亚马逊实例上的2节点集群上设置hadoop。每个实例都有一个公共(public)dns,我用它来引用它们。因此,在两台机器上的/etc/hosts文件中,我附加了如下行:{publicdnsof1stinstance}node1{publicdnsof2stinstance}node2我还可以通过简单地执行以下操作从另一个实例连接到每个实例:ssh{publicdnsoftheotherinstance}在hadoop/conf/slaves上的第一个实例文件中,我有:localhostnode2当我启动脚本bin/start-dfs.sh时它能够在主节点上启动名称节点

java - 自定义数据在 map 输出中写入未知数据

有人可以帮助我理解为什么我会得到我所指的自定义数据类型的这种奇怪行为this我的映射器代码是publicclasscustomDataMapperextendsMapper{Texturl=newText();Textdate=newText();Textip=newText();customTextctext=newcustomText();publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringwords[]=value.toString(

hadoop fs –put 未知命令

使用以下命令创建了一个文件夹[LOAN_DATA]hadoopfs-mkdirhdfs://masterNode:8020/tmp/hadoop-hadoop/dfs/LOAN_DATA现在使用WebUI,当我列出目录/tmp/hadoop-hadoop/dfs的内容时,它显示LOAN_DATA。但是当我想使用put或copyFromLocal将一些数据从TXT文件存储到LOAN_DATA目录时,我得到了put:未知命令使用的命令:hadoopfs–put'/home/hadoop/my_work/Acquisition_2012Q1.txt'hdfs://masterNode:802

amazon-web-services - 将 PIG 与 Hadoop 结合使用,我如何通过正则表达式匹配具有未知组数的部分文本?

我正在使用Amazon的elasticmapreduce。我的日志文件看起来像这样randomtextfoo="1"morerandomtextfoo="2"moretextnotamatch="5"noisefoo="1"blahblahblahfoo="1"blahblahfoo="3"blahblahfoo="4"...我如何编写pig表达式来挑选“foo”表达式中的所有数字?我更喜欢看起来像这样的元组:(1,2)(1)(1,3,4)我试过以下方法:TUPLES=foreachLINESgenerateFLATTEN(EXTRACT(line,'foo="([0-9]+)"'))