hadoop-examples

hadoop - 使用动态列插入 Hive

我收到的文件中的列是动态的。文件1可以是column1column2column3column4column5column6column7文件2可以column1column2column9column10column11column12column13文件3可以column1column2column3column10column11如何将配置单元表修改为我将随文件一起接收的列。最佳答案这会非常困惑，但如果没有任何明确的定界符，您能做的最好的事情就是定义一个RegexSerDe并捕获每个可能的列。您缺少的列基本上是一个可选的捕

hadoop - 为什么 alluxio 文件一直保持 TO_BE_PERSISTED 状态

我已经部署了一个基于HDFS集群的Alluxio集群。当我使用AlluxioNativeJavaApi将一些文件写入Alluxio并设置writetypeASYNC_THROUGH时，文件(即使只有1G)似乎没有写入HDFS，几天后一直保持TO_BE_PERSISTED状态。最佳答案我找到了答案。我发现日志“错误DefaultAsyncPersistHandler-并非所有文件block/test/sample_data/order_detail_titile_2.0.txt都存储在同一个worker上”，当使用ASYNC_TH

TO_BE_PERSISTED PERSISTED section Alluxio 拦截器 hadoop hdfs

hadoop 集群未运行 map reduce 作业 - 调度程序问题

(这是对我之前就此事提出的问题进行的讨论的后续行动)我按照these设置了一个小型Hadoop集群说明，但使用Hadoop版本2.7.4。集群似乎工作正常，但我无法运行mapreduce作业。特别是，在尝试以下操作时$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jarrandomwriteroutdentercodehere作业打印17/11/2716:35:21INFOclient.RMProxy:ConnectingtoResourceManageratec2-yyy.eu-central-1

hadoop reduce gt lt description mapreduce hadoop2

java - 在 Hadoop 中获取百分比

我有一个项目，我需要获取一个包含多列的逗号分隔文件，并提取公司名称、客户交互的结果以及发生的次数。然后我需要计算不良交互与良好交互的百分比我正在使用Hadoop和Java。我有一个可用的Map和Reduce，它为我提供了公司名称以及有多少好的和坏的交互。我的问题是，我找不到让Hadoop划分好坏给我一个百分比的方法。大多数公司没有任何不良互动。这是我的mappublicclassTermProjectMapperextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText

Hadoop java IntWritable code companyResponseToConsumer mapreduce

hadoop - 使用直线命令将配置单元查询下载为 csv 格式

我需要将hive查询结果以csv格式下载到本地文件路径。此外，列值应包含在引号中，字段以逗号结尾，文件的第一行应包含列标题。任何人都可以帮助我实现这一目标的最佳方法吗？注意-查询通常返回超过500万行。最佳答案最好的方法是使用您选择的数据创建一个配置单元表，如下所示。CREATEEXTERNALTABLEramesh_csv(col1INT,col2STRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separ

配置单 hadoop section 34 code hive beeline

hadoop - 由于 «p.ermakov» 等无法映射的字符，NodeManager 无法启动

当我启动NodeManager时，我在日志中看到了这个错误。此作业总是在服务器启动时启动，如何删除此作业并解决问题？Applicationapplication_1511362704902_0007failed2timesduetoAMContainerforappattempt_1511362704902_0007_000002exitedwithexitCode:-1000Formoredetailedoutput,checktheapplicationtrackingpage:http://hdp-namenode.vk-dev6.dev.ru:8088/cluster/app/

NodeManager ermakov section application 1511362704902 hadoop hadoop-yarn resourcemanager

Kubernetes 上的 Hadoop 数据节点路由问题

我正在尝试在Openshift/Kuberentes/Docker(Openshift3.5)上设置示例Hadoop集群，但我遇到了以下问题:一次只有一个Datanode在Namenode上注册，因为Namenode看到同一IP(192.168.20.1)下的所有数据节点。这显然是由于集群中的网络路由实际示例配置:名称节点192.168.20.119hadoop-namenode-10-qp83z数据节点192.168.20.132hadoop-slave-0.hadoop-slave.my-project.svc.cluster.localhadoop-slave-0192.168.

Kubernetes Hadoop hadoop-slave 192

hadoop - 如果添加到 zookeeper 的 master 之一关闭，则事件 master 不接受新申请

我在spark独立集群中启用高可用性(HA)时遇到了一个非常奇怪的问题。我已经配置了3个sparkmaster，并按照以下步骤在zookeeper中注册了它们:创建配置文件ha.conf，内容如下:spark.deploy.recoveryMode=ZOOKEEPERspark.deploy.zookeeper.url=ZK_HOST:2181spark.deploy.zookeeper.dir=/spark通过将此属性文件作为参数传递给start-master脚本来启动所有3个主控器，如下所示:./start-master.sh-hlocalhost-p17077--webui-po

一关 master spark scala apache hadoop apache-spark bigdata apache-zookeeper high-availability

Hadoop 2.9.0 - hadoop namenode -format 和 hdfs-site.xml dfs.namenode.name.dir

我的第一个问题，我会尽量不把事情搞砸:)出于学习目的，我正在4节点集群上安装Hadoop2.9.0。我已经按照官方ApacheHadoop2.9.0文档和一些谷歌页面开始安装/配置名称节点。我像这样编辑了位于$HADOOP_HOME/etc/hadoop目录下的hdfs-site.xml:dfs.namenode.name.dirfile:///apps/hdfs/namenode/datadfs.datanode.data.dirfile:///apps/hdfs/datanode/datadfs.namenode.checkpoint.dirfile:///apps/hdfs/na

namenode hdfs-site hadoop section gt hdfs

hadoop - ifile EBADF : Bad file descriptor while performing matrix addition 上的预读失败

我正在尝试在ApachePig中编写用于矩阵加法的代码。matrixM=LOAD'Mmatrix.txt'USINGPigStorage(',')AS(i,j,v);matrixN=LOAD'Nmatrix.txt'USINGPigStorage(',')AS(i,j,v);unionres=UNIONmatrixM,matrixN;DUMPunionres;res=GROUPunionresBY(i,j);DUMPres;ILLUSTRATEres;final_res=FOREACHresGENERATEgroup.$0ASi,group.$1ASj,SUM(unionres.v)A

预读 descriptor section java ThreadPoolExecutor hadoop apache-pig