草庐IT

apache-spark-1.3

全部标签

尝试将 Spark RDD 存储到 HBase 时出现 java.io.FileNotFoundException

我正在尝试将一些数据从HDFS加载到HBase,如下所示:Stringdir="/tmp/eloued";Configurationconfig=HBaseConfiguration.create();config.set(SequenceFileInputFormat.INPUT_DIR,dir);//serializationconfig.setStrings("io.serializations",config.get("io.serializations"),MutationSerialization.class.getName(),ResultSerialization.cl

apache - Hive 版本模式

我正在浏览Hive发行版本,观察到Hive版本的模式似乎有点连线。在2015年6月27日发布1.2.1之后,下一个版本是2016年2月15日的2.0,并且版本继续。同样在2017年4月7日,即最近Hive再次发布了1.2.2版本。我不明白为什么又是1.2.2而不是2.x.y。有人能解释一下吗。提前致谢。 最佳答案 您在附上的屏幕截图中有答案。有2条产品线。Hive1.x适用于Hadoop1.x.y和Hadoop2.x.yHive2.x仅适用于Hadoop2.x.yhttps://hive.apache.org/downloads.h

r - 在sparklyr中使用spark_read_csv报错 "Invalid method csv for object"

我正在尝试从hdfs读取R中的数据。在使用sparklyr时,我遇到的一件事是破译错误消息……因为我不是Java程序员。考虑这个例子:在R中执行此操作创建鲍鱼数据框-鲍鱼是用于机器学习示例的数据集loadpivotalRpackage#containsabalonedataandcreatedataframeif(!require(PivotalR)){install.packages(PivotalR)}data(abalone)#sampleofdatahead(abalone)#exportdatatoaCSVfileif(!require(readr)){install.pac

hadoop - 无法使用 spark API 写入 MySQL - pickle.PicklingError : Could not serialize object

我正在尝试使用分区任务中的sparkjdbc()函数写入MySQL表,该分区任务是通过执行foreachPartitions(test)调用的。然而,我收到了一个选择错误。我不确定问题是否是由于spark已经在任务内部并且spark将write.jdbc()作为任务本身运行。根据我的理解,这是不允许的?我可以从我的test()函数返回列表“行”并在main中调用write.jdbc()但我宁愿不必将数据结构收集回主控。代码和错误:代码:deftest(partition_iter):row=[]row.append({'col1':26,'col2':12,'col2':153.493

hadoop - 哪个最好 : Apache Ambari cluster on Physical system with 5 Machine or install on virtual machine with diffrent 5 VM?

您好,我正在做我的一个项目,我创建了5台机器的虚拟机,它在开发环境中运行良好,但我对虚拟机集群好还是需要使用物理系统集群有一些困惑。 最佳答案 Hadoop是为物理系统开发的,但它会在虚拟环境中发挥不同程度的成功,这取决于具体的环境。这实际上是hadoop邮件列表上的一个非常常见的问题,Hadoop开发人员在HadoopWiki文章中专门解决了这个问题:VirtualHadoop.本文介绍了每种方法的优点/缺点,并讨论了云部署。您应该阅读本文,看看您属于哪种部署方案,并评估您的VM设置中可能存在的问题。

java - 映射 : expected org. apache.hadoop.io.Text 中的键类型不匹配,收到 org.apache.hadoop.io.IntWritable

我正在尝试在java中运行一个mapreducer,以获取一个逗号分隔的文件,该文件包含有关坠机的AIRLINE的数据。数据包含以下列,还提供了示例数据:passengerid,survived(s=0,d=1),pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked1,0,3,"BraundMr.OwenHarris",male,22,1,0,A/521171,7.25,,S,2,1,1,"CumingsMrs.JohnBradley(FlorenceBriggsThayer)",female,38,1,0,PC17599

hadoop - 使用 s3 的 spark 加载 json 时 FS 错误

我正在尝试使用spark和magellanlibrary加载geojson文件我的加载代码是:valpolygons=spark.read.format("magellan").option("type","geojson").load(inJson)inJson是我在s3上的json的路径:s3n://bucket-name/geojsons/file.json堆栈跟踪错误:0.3instage0.0(TID3,ip-172-31-19-102.eu-west-1.compute.internal,executor1):java.lang.IllegalArgumentExcepti

hadoop - 在没有任何 hadoop 依赖项的情况下构建 spark

我找到了一些对-Phadoop-provided标志的引用,用于在没有hadoop库的情况下构建spark,但找不到如何使用它的好例子。我如何从源代码构建spark并确保它不会添加任何它自己的hadoop依赖项。看起来当我构建最新的spark时,它包含了一堆2.8.xhadoop的东西,这与我的集群hadoop版本冲突。 最佳答案 Spark具有“使用用户提供的Hadoop预构建”的下载选项,因此以spark-VERSION-bin-without-hadoop.tgz命名如果你真的想构建它,那么从项目根目录运行它./build/m

java - 在 org.apache.hadoop.mapred.MapTask$NewOutputCollector 关闭期间忽略异常

我创建了一个hadoop自定义可写对象,如下所示publicclassResultTypeimplementsWritable{privateTextxxxx;privateTextyyyy;privateTextzzzz;publicResultType(){}publicResultType(Textxxxx,Textyyyy,Textzzzz){this.xxxx=xxxx;this.yyyy=yyyy;this.zzzz=zzzz;}publicTextgetxxxx(){returnthis.xxxx;}publicTextgetyyyy(){returnthis.yyyy;

hadoop - Apache HIVE 中的表定义问题

以下是我推送到名为temp_stat的Hive表中的数据集:COUNTRYCITYTEMP-----------------------------------USArizona51.7USCalifornia56.7USBullheadCity51.1IndiaJaisalmer42.4LibyaAziziya57.8IranLutDesert70.7IndiaBanda42.4当我尝试通过select命令查看数据时,我得到以下数据集:US,Arizona,51.7NULLNULLUS,California,56.7NULLNULLUS,BullheadCity,51.1NULLNU