草庐IT

apache-spark-2.3

全部标签

hadoop - 哪个最好 : Apache Ambari cluster on Physical system with 5 Machine or install on virtual machine with diffrent 5 VM?

您好,我正在做我的一个项目,我创建了5台机器的虚拟机,它在开发环境中运行良好,但我对虚拟机集群好还是需要使用物理系统集群有一些困惑。 最佳答案 Hadoop是为物理系统开发的,但它会在虚拟环境中发挥不同程度的成功,这取决于具体的环境。这实际上是hadoop邮件列表上的一个非常常见的问题,Hadoop开发人员在HadoopWiki文章中专门解决了这个问题:VirtualHadoop.本文介绍了每种方法的优点/缺点,并讨论了云部署。您应该阅读本文,看看您属于哪种部署方案,并评估您的VM设置中可能存在的问题。

java - 映射 : expected org. apache.hadoop.io.Text 中的键类型不匹配,收到 org.apache.hadoop.io.IntWritable

我正在尝试在java中运行一个mapreducer,以获取一个逗号分隔的文件,该文件包含有关坠机的AIRLINE的数据。数据包含以下列,还提供了示例数据:passengerid,survived(s=0,d=1),pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked1,0,3,"BraundMr.OwenHarris",male,22,1,0,A/521171,7.25,,S,2,1,1,"CumingsMrs.JohnBradley(FlorenceBriggsThayer)",female,38,1,0,PC17599

hadoop - 使用 s3 的 spark 加载 json 时 FS 错误

我正在尝试使用spark和magellanlibrary加载geojson文件我的加载代码是:valpolygons=spark.read.format("magellan").option("type","geojson").load(inJson)inJson是我在s3上的json的路径:s3n://bucket-name/geojsons/file.json堆栈跟踪错误:0.3instage0.0(TID3,ip-172-31-19-102.eu-west-1.compute.internal,executor1):java.lang.IllegalArgumentExcepti

hadoop - 在没有任何 hadoop 依赖项的情况下构建 spark

我找到了一些对-Phadoop-provided标志的引用,用于在没有hadoop库的情况下构建spark,但找不到如何使用它的好例子。我如何从源代码构建spark并确保它不会添加任何它自己的hadoop依赖项。看起来当我构建最新的spark时,它包含了一堆2.8.xhadoop的东西,这与我的集群hadoop版本冲突。 最佳答案 Spark具有“使用用户提供的Hadoop预构建”的下载选项,因此以spark-VERSION-bin-without-hadoop.tgz命名如果你真的想构建它,那么从项目根目录运行它./build/m

java - 在 org.apache.hadoop.mapred.MapTask$NewOutputCollector 关闭期间忽略异常

我创建了一个hadoop自定义可写对象,如下所示publicclassResultTypeimplementsWritable{privateTextxxxx;privateTextyyyy;privateTextzzzz;publicResultType(){}publicResultType(Textxxxx,Textyyyy,Textzzzz){this.xxxx=xxxx;this.yyyy=yyyy;this.zzzz=zzzz;}publicTextgetxxxx(){returnthis.xxxx;}publicTextgetyyyy(){returnthis.yyyy;

hadoop - Apache HIVE 中的表定义问题

以下是我推送到名为temp_stat的Hive表中的数据集:COUNTRYCITYTEMP-----------------------------------USArizona51.7USCalifornia56.7USBullheadCity51.1IndiaJaisalmer42.4LibyaAziziya57.8IranLutDesert70.7IndiaBanda42.4当我尝试通过select命令查看数据时,我得到以下数据集:US,Arizona,51.7NULLNULLUS,California,56.7NULLNULLUS,BullheadCity,51.1NULLNU

hadoop - 在S3上创建Hive外部表将引发 “org.apache.hadoop.fs.s3a.S3AFileSystem not found”异常

我在本地计算机上使用beeline在DDL下运行,并引发异常。DDL是CREATETABLE`report_landing_pages`(`google_account_id`stringCOMMENT'fromdeserializer',`ga_view_id`stringCOMMENT'fromdeserializer',`path`stringCOMMENT'fromdeserializer',`users`stringCOMMENT'fromdeserializer',`page_views`stringCOMMENT'fromdeserializer',`event_valu

hadoop - Spark YARN 应用程序中 Kerberos 中的 HDFS 写入问题

我有一个spark应用程序,它从Kafka读取数据并将数据写入HDFS。我的应用程序在几分钟内工作正常,但一段时间后它开始出现以下错误并失败。2018-01-0217:59:20LeaseRenewer:username@nameservicename[WARN]UserGroupInformation-PriviledgedActionExceptionas:username@REALM_NAME(auth:KERBEROS)cause:javax.security.sasl.SaslException:GSSinitiatefailed[CausedbyGSSException:N

azure - 尼菲 java.lang.NoSuchMethodError : org. apache.hadoop.conf.Configuration.reloadExistingConfigurations

我正在点击此链接以设置NifiputHDFS以写入AzureDataLake。ConnectingtoAzureDataLakefromaNiFidataflowNifi在HDF3.1VM中,Nifi版本为1.5。我们从一个HDInsight(v3.6,whichsupportshadoop2.7)headnode得到了上面链接中提到的jar文件,这些jar文件是:adls2-oauth2-token-provider-1.0.jarazure-data-lake-store-sdk-2.1.4.jarhadoop-azure-datalake.jarjackson-core-2.2.

hadoop - Spark - 如何在 HDFS 中重组目录

我有一个结构如下的目录:temp/Tweets/userId123/Tweets.csvtemp/Tweets/userId456/Tweets.csvtemp/Tweets/userId789/Tweets.csvtemp/Mentions/userId123/Mentions.csvtemp/Mentions/userId456/Mentions.csvtemp/Mentions/userId789/Mentions.csv...数据由数据实体的类型构成,我想由用户对其进行重组,如下所示:final/userId123/Tweets.csvfinal/userId123/Menti