hadoop-worker

hadoop - 启动 hive 时出错

我不知道在Ubuntu17.04的终端中启动配置单元时发生了什么，我在终端上遇到了一些错误。我是Hive的新手，面临一些问题，任何人都可以帮助我解决这个问题。我有(安装并在.bashrc文件中指定):哈多普:2.8.0hive:2.1.1java:1.8.0_131SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/usr/local/src/hive-2.1.1/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/StaticLoggerBin

java - 映射 : expected org. apache.hadoop.io.Text 中的键类型不匹配，收到 org.apache.hadoop.io.IntWritable

我正在尝试在java中运行一个mapreducer，以获取一个逗号分隔的文件，该文件包含有关坠机的AIRLINE的数据。数据包含以下列，还提供了示例数据:passengerid,survived(s=0,d=1),pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked1,0,3,"BraundMr.OwenHarris",male,22,1,0,A/521171,7.25,,S,2,1,1,"CumingsMrs.JohnBradley(FlorenceBriggsThayer)",female,38,1,0,PC17599

apache hadoop import java string hadoop2

Hadoop MapReduce 无法连接到 ResourceManager

我正在尝试使用单节点集群(伪分布式)设置Hadoop并使用theapacheguide这样做。现在我正在尝试运行MapReduce作业并使用它提供的示例bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha3.jargrepinputoutput'dfs[a-z]+'hadoop@hadoop:/usr/local/hadoop$bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha3.jargrepin

ResourceManager MapReduce xx hadoop apache hdfs hadoop3

linux - 如何直接从Linux hadoop edge节点自动复制文件到windows共享盘？

能否请您分享一下您使用shell脚本和ftp/scp选项自动将文件从linux机器复制到windows共享文件夹的想法/过程？？我知道我们可以使用winscp和filezilla从linux下载文件到本地windows机器，但是如果我们想直接将文件复制到windows共享驱动器。先谢谢您的帮助。最佳答案在Linux机器上安装windows共享并设置一个cron作业来复制文件(如果您需要自动执行)。如果您有Ubuntu，请按照本教程安装共享驱动器。https://wiki.ubuntu.com/MountWindowsShares

windows hadoop section https linux shell automation

hadoop - 使用 Hadoop 集群的自定义域？

我正在从事一个研究项目，我目前拥有一个域(我们称它为abc.xyz)。我在NameCheap上购买了它，并在域名上运行了一些基本的HTML/CSS/JavaScript(即http://abc.xyz/index.html)。我想做的是使用同一域的子域作为Hadoop域的FQDN，这样master主机将是master.abc.xyz和slaveX(其中X是数字1、2、3...)主机将是slaveX.abc.xyz。实现此配置必须采取哪些步骤？我是否必须放弃通过NameCheap的cPanel托管？最佳答案在您的域名托管服

hadoop code strong section dns

hadoop - 使用 s3 的 spark 加载 json 时 FS 错误

我正在尝试使用spark和magellanlibrary加载geojson文件我的加载代码是:valpolygons=spark.read.format("magellan").option("type","geojson").load(inJson)inJson是我在s3上的json的路径:s3n://bucket-name/geojsons/file.json堆栈跟踪错误:0.3instage0.0(TID3,ip-172-31-19-102.eu-west-1.compute.internal,executor1):java.lang.IllegalArgumentExcepti

hadoop spark scala apache DistributedFileSystem apache-spark amazon-s3 geospatial amazon-emr

hadoop - 通过第三方工具的 Google Dataproc Hive 实例

这里需要你的帮助。我希望将我的GoogleDataprocHadoop/Hive实例与第三方工具连接起来，并从“ToadforHadoop”开始。这是一个好的选择吗？或者还有其他我可以使用的工具吗？最佳答案 Dataproc默认运行HiveServer2服务器，如果您在ComputeEngine中适当设置防火墙规则(不要只对来自外部互联网的所有传入连接开放它!将它限制为您自己的IP地址'正在连接)，任何第三方工具都可以正常连接。您可以通过云控制台GUI找到主主机名的外部IP地址。查看主节点上的/etc/hive/conf/hive

Dataproc hadoop section stackoverflow hive google-cloud-dataproc

hadoop - Hadoop Namenode HA 和 HDFS federation 之间有什么区别

我对使用QJM和HDFS联合的HadoopNamenodeHA有点困惑。两者都使用多个名称节点并且都提供高可用性。我无法决定将哪种架构用于Namenode高可用性，因为除了QJM之外，两者看起来完全相同。如果这不是这里要讨论的问题类型，请原谅。最佳答案 HDFSHighAvailability和HDFSFederation之间的主要区别在于，Federation中的名称节点彼此不相关。在HDFS联邦中，所有名称节点共享一个元数据池，其中每个名称节点都有自己的池，因此提供容错能力，即如果联合中的一个名称节点发生故障，它不会影响其他名

federation Namenode section HDFS hadoop high-availability quorum

hadoop - 在没有任何 hadoop 依赖项的情况下构建 spark

我找到了一些对-Phadoop-provided标志的引用，用于在没有hadoop库的情况下构建spark，但找不到如何使用它的好例子。我如何从源代码构建spark并确保它不会添加任何它自己的hadoop依赖项。看起来当我构建最新的spark时，它包含了一堆2.8.xhadoop的东西，这与我的集群hadoop版本冲突。最佳答案 Spark具有“使用用户提供的Hadoop预构建”的下载选项，因此以spark-VERSION-bin-without-hadoop.tgz命名如果你真的想构建它，那么从项目根目录运行它./build/m

hadoop spark section code apache-spark

hadoop - Oozie Hadoop 流媒体

我正在尝试编写一个简单的maponlyhadoopstreamingjob从hdfs读取数据并将其推送到vertica。我写了几个shell脚本如下加载.shhadoopjarhadoop-streaming-2.7.3.2.5.3.0-37.jar-input$INPUT_DIR-mapper/user/oozie/adhoc_data_load/scripts/export.sh-output$OUTPUT_DIR导出.sh./vsql-c"copy$TABLEfromstdindelimiterE'\t'directnull'\\N';"-U$DBUSER-w$DBPWD-h$D

流媒流媒体 argument gt lt hadoop oozie hadoop-streaming

77 78 798081 82 83