草庐IT

hadoop-examples

全部标签

hadoop - 使用动态列插入 Hive

我收到的文件中的列是动态的。文件1可以是column1column2column3column4column5column6column7文件2可以column1column2column9column10column11column12column13文件3可以column1column2column3column10column11如何将配置单元表修改为我将随文件一起接收的列。 最佳答案 这会非常困惑,但如果没有任何明确的定界符,您能做的最好的事情就是定义一个RegexSerDe并捕获每个可能的列。您缺少的列基本上是一个可选的捕

hadoop - 为什么 alluxio 文件一直保持 TO_BE_PERSISTED 状态

我已经部署了一个基于HDFS集群的Alluxio集群。当我使用AlluxioNativeJavaApi将一些文件写入Alluxio并设置writetypeASYNC_THROUGH时,文件(即使只有1G)似乎没有写入HDFS,几天后一直保持TO_BE_PERSISTED状态。 最佳答案 我找到了答案。我发现日志“错误DefaultAsyncPersistHandler-并非所有文件block/test/sample_data/order_detail_titile_2.0.txt都存储在同一个worker上”,当使用ASYNC_TH

hadoop 集群未运行 map reduce 作业 - 调度程序问题

(这是对我之前就此事提出的问题进行的讨论的后续行动)我按照these设置了一个小型Hadoop集群说明,但使用Hadoop版本2.7.4。集群似乎工作正常,但我无法运行mapreduce作业。特别是,在尝试以下操作时$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jarrandomwriteroutdentercodehere作业打印17/11/2716:35:21INFOclient.RMProxy:ConnectingtoResourceManageratec2-yyy.eu-central-1

java - 在 Hadoop 中获取百分比

我有一个项目,我需要获取一个包含多列的逗号分隔文件,并提取公司名称、客户交互的结果以及发生的次数。然后我需要计算不良交互与良好交互的百分比我正在使用Hadoop和Java。我有一个可用的Map和Reduce,它为我提供了公司名称以及有多少好的和坏的交互。我的问题是,我找不到让Hadoop划分好坏给我一个百分比的方法。大多数公司没有任何不良互动。这是我的mappublicclassTermProjectMapperextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText

hadoop - 使用直线命令将配置单元查询下载为 csv 格式

我需要将hive查询结果以csv格式下载到本地文件路径。此外,列值应包含在引号中,字段以逗号结尾,文件的第一行应包含列标题。任何人都可以帮助我实现这一目标的最佳方法吗?注意-查询通常返回超过500万行。 最佳答案 最好的方法是使用您选择的数据创建一个配置单元表,如下所示。CREATEEXTERNALTABLEramesh_csv(col1INT,col2STRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separ

hadoop - 由于 «p.ermakov» 等无法映射的字符,NodeManager 无法启动

当我启动NodeManager时,我在日志中看到了这个错误。此作业总是在服务器启动时启动,如何删除此作业并解决问题?Applicationapplication_1511362704902_0007failed2timesduetoAMContainerforappattempt_1511362704902_0007_000002exitedwithexitCode:-1000Formoredetailedoutput,checktheapplicationtrackingpage:http://hdp-namenode.vk-dev6.dev.ru:8088/cluster/app/

Kubernetes 上的 Hadoop 数据节点路由问题

我正在尝试在Openshift/Kuberentes/Docker(Openshift3.5)上设置示例Hadoop集群,但我遇到了以下问题:一次只有一个Datanode在Namenode上注册,因为Namenode看到同一IP(192.168.20.1)下的所有数据节点。这显然是由于集群中的网络路由实际示例配置:名称节点192.168.20.119hadoop-namenode-10-qp83z数据节点192.168.20.132hadoop-slave-0.hadoop-slave.my-project.svc.cluster.localhadoop-slave-0192.168.

hadoop - 如果添加到 zookeeper 的 master 之一关闭,则事件 master 不接受新申请

我在spark独立集群中启用高可用性(HA)时遇到了一个非常奇怪的问题。我已经配置了3个sparkmaster,并按照以下步骤在zookeeper中注册了它们:创建配置文件ha.conf,内容如下:spark.deploy.recoveryMode=ZOOKEEPERspark.deploy.zookeeper.url=ZK_HOST:2181spark.deploy.zookeeper.dir=/spark通过将此属性文件作为参数传递给start-master脚本来启动所有3个主控器,如下所示:./start-master.sh-hlocalhost-p17077--webui-po

Hadoop 2.9.0 - hadoop namenode -format 和 hdfs-site.xml dfs.namenode.name.dir

我的第一个问题,我会尽量不把事情搞砸:)出于学习目的,我正在4节点集群上安装Hadoop2.9.0。我已经按照官方ApacheHadoop2.9.0文档和一些谷歌页面开始安装/配置名称节点。我像这样编辑了位于$HADOOP_HOME/etc/hadoop目录下的hdfs-site.xml:dfs.namenode.name.dirfile:///apps/hdfs/namenode/datadfs.datanode.data.dirfile:///apps/hdfs/datanode/datadfs.namenode.checkpoint.dirfile:///apps/hdfs/na

hadoop - ifile EBADF : Bad file descriptor while performing matrix addition 上的预读失败

我正在尝试在ApachePig中编写用于矩阵加法的代码。matrixM=LOAD'Mmatrix.txt'USINGPigStorage(',')AS(i,j,v);matrixN=LOAD'Nmatrix.txt'USINGPigStorage(',')AS(i,j,v);unionres=UNIONmatrixM,matrixN;DUMPunionres;res=GROUPunionresBY(i,j);DUMPres;ILLUSTRATEres;final_res=FOREACHresGENERATEgroup.$0ASi,group.$1ASj,SUM(unionres.v)A