草庐IT

hadoop-mapreduce

全部标签

hadoop - MapReduce默认的Input键是什么?

我正在使用基于hadoop2.6.0的MpaReduce,我想跳过数据文件的前六行,所以我使用if(key.get()在我的map()函数中。但这是不对的。我发现map()的inputkey不是文件行的offset。关键是每行长度的总和。为什么?看起来不像很多书上的字。 最佳答案 Ifyoulookatthecode,它是文件的实际字节偏移量而不是行。如果您想跳过文件的前n行,您可能必须编写自己的输入格式/记录阅读器,或者确保在映射器逻辑ala中保留一个行计数器:intlines=0;publicvoidmap(LongWritab

hadoop - 无法使用 spark API 写入 MySQL - pickle.PicklingError : Could not serialize object

我正在尝试使用分区任务中的sparkjdbc()函数写入MySQL表,该分区任务是通过执行foreachPartitions(test)调用的。然而,我收到了一个选择错误。我不确定问题是否是由于spark已经在任务内部并且spark将write.jdbc()作为任务本身运行。根据我的理解,这是不允许的?我可以从我的test()函数返回列表“行”并在main中调用write.jdbc()但我宁愿不必将数据结构收集回主控。代码和错误:代码:deftest(partition_iter):row=[]row.append({'col1':26,'col2':12,'col2':153.493

csv - 如何将具有不同分隔符的 CSV 加载到单个 Hadoop 表

我想用多个CSV文件填充一个Hive表。问题是并非所有文件都具有相同的分隔符。在创建表格时,我只能指定一个分隔符,例如~createtablestatus(typestring,...)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'withserdeproperties("separatorChar"="~")STOREDASTEXTFILEHive是否有允许多个CSV分隔符的内置功能?我知道这些文件可以在加载之前由Hadoop作业标准化或基于https://stackoverflow.com/a/26356592/

hadoop - 哪个最好 : Apache Ambari cluster on Physical system with 5 Machine or install on virtual machine with diffrent 5 VM?

您好,我正在做我的一个项目,我创建了5台机器的虚拟机,它在开发环境中运行良好,但我对虚拟机集群好还是需要使用物理系统集群有一些困惑。 最佳答案 Hadoop是为物理系统开发的,但它会在虚拟环境中发挥不同程度的成功,这取决于具体的环境。这实际上是hadoop邮件列表上的一个非常常见的问题,Hadoop开发人员在HadoopWiki文章中专门解决了这个问题:VirtualHadoop.本文介绍了每种方法的优点/缺点,并讨论了云部署。您应该阅读本文,看看您属于哪种部署方案,并评估您的VM设置中可能存在的问题。

hadoop - 启动 hive 时出错

我不知道在Ubuntu17.04的终端中启动配置单元时发生了什么,我在终端上遇到了一些错误。我是Hive的新手,面临一些问题,任何人都可以帮助我解决这个问题。我有(安装并在.bashrc文件中指定):哈多普:2.8.0hive:2.1.1java:1.8.0_131SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/usr/local/src/hive-2.1.1/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/StaticLoggerBin

java - 映射 : expected org. apache.hadoop.io.Text 中的键类型不匹配,收到 org.apache.hadoop.io.IntWritable

我正在尝试在java中运行一个mapreducer,以获取一个逗号分隔的文件,该文件包含有关坠机的AIRLINE的数据。数据包含以下列,还提供了示例数据:passengerid,survived(s=0,d=1),pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked1,0,3,"BraundMr.OwenHarris",male,22,1,0,A/521171,7.25,,S,2,1,1,"CumingsMrs.JohnBradley(FlorenceBriggsThayer)",female,38,1,0,PC17599

Hadoop MapReduce 无法连接到 ResourceManager

我正在尝试使用单节点集群(伪分布式)设置Hadoop并使用theapacheguide这样做。现在我正在尝试运行MapReduce作业并使用它提供的示例bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha3.jargrepinputoutput'dfs[a-z]+'hadoop@hadoop:/usr/local/hadoop$bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha3.jargrepin

linux - 如何直接从Linux hadoop edge节点自动复制文件到windows共享盘?

能否请您分享一下您使用shell脚本和ftp/scp选项自动将文件从linux机器复制到windows共享文件夹的想法/过程??我知道我们可以使用winscp和filezilla从linux下载文件到本地windows机器,但是如果我们想直接将文件复制到windows共享驱动器。先谢谢您的帮助。 最佳答案 在Linux机器上安装windows共享并设置一个cron作业来复制文件(如果您需要自动执行)。如果您有Ubuntu,请按照本教程安装共享驱动器。https://wiki.ubuntu.com/MountWindowsShares

hadoop - 使用 Hadoop 集群的自定义域?

我正在从事一个研究项目,我目前拥有一个域(我们称它为abc.xyz)。我在NameCheap上购买了它,并在域名上运行了一些基本的HTML/CSS/JavaScript(即http://abc.xyz/index.html)。我想做的是使用同一域的子域作为Hadoop域的FQDN,这样ma​​ster主机将是ma​​ster.abc.xyz和slaveX(其中X是数字1、2、3...)主机将是slaveX.abc.xyz。实现此配置必须采取哪些步骤?我是否必须放弃通过NameCheap的cPanel托管? 最佳答案 在您的域名托管服

hadoop - 使用 s3 的 spark 加载 json 时 FS 错误

我正在尝试使用spark和magellanlibrary加载geojson文件我的加载代码是:valpolygons=spark.read.format("magellan").option("type","geojson").load(inJson)inJson是我在s3上的json的路径:s3n://bucket-name/geojsons/file.json堆栈跟踪错误:0.3instage0.0(TID3,ip-172-31-19-102.eu-west-1.compute.internal,executor1):java.lang.IllegalArgumentExcepti