草庐IT

replication-internals

全部标签

hadoop - pig 错误 : Unhandled internal error. 找到接口(interface) org.apache.hadoop.mapreduce.TaskAttemptContext,但类是预期的

我刚刚在HortonworksHDP2.1上将Pig0.12.0升级到0.13.0版本当我尝试在脚本中使用XMLLoader时出现以下错误,即使我已经注册了piggybank。脚本:A=load'EPAXMLDownload.xml'usingorg.apache.pig.piggybank.storage.XMLLoader('Document')as(x:chararray);错误:dumpA2014-08-1023:08:56,494[main]INFOorg.apache.hadoop.conf.Configuration.deprecation-io.bytes.per.ch

hadoop - HDFS 名称节点 HA : Why use NFS rather than simply replicate between the two?

看Facebook使用的AvatarNode方案为HDFSNamenode提供HA,不明白为什么要用NFS。让我感到困惑的是,NFS无论如何都必须复制才能实现HA。主节点必须写入NFS并刷新才能获得HA。为什么不简单地在主节点和辅助节点之间打开一个套接字channel,然后对辅助Namenode执行相同的写入。这将是(大约)相同数量的网络流量,并且似乎具有相同的复制语义。那么问题来了,为什么不这样做呢?我想原因之一可能是NFS存在,因此问题可能更容易实现。但是考虑到在主要和次要之间使用原始套接字channel将写入流接口(interface)(即文件)的相同信息写入NFS的(明显的)简

mysql - phpMyAdmin 中定义的 "Internal Relations"是什么?

在phpMyAdmin关系View中,在“外键约束”旁边有一列“内部关系”。我知道在mySQL中使用什么外键,但我从未听说过内部关系。这是phpMyAdmin的事情吗? 最佳答案 这是一个phpmyadmin内部机制来管理表之间的关系。这个特性实际上对于不支持外键和约束的MISAM表很有用。通过在phpmyadmin中定义内部关系,您可以将无法链接的表链接在一起。这些信息存储在MySQL服务器内的phpmyadmin特定表中(phpmyadmin.PMA_relation)。然而,这只是一个phpmyadmin内部定义,对mysql

mysql - phpMyAdmin 中定义的 "Internal Relations"是什么?

在phpMyAdmin关系View中,在“外键约束”旁边有一列“内部关系”。我知道在mySQL中使用什么外键,但我从未听说过内部关系。这是phpMyAdmin的事情吗? 最佳答案 这是一个phpmyadmin内部机制来管理表之间的关系。这个特性实际上对于不支持外键和约束的MISAM表很有用。通过在phpmyadmin中定义内部关系,您可以将无法链接的表链接在一起。这些信息存储在MySQL服务器内的phpmyadmin特定表中(phpmyadmin.PMA_relation)。然而,这只是一个phpmyadmin内部定义,对mysql

hadoop - "dfs.replication"和 "dfs.datanode.data.dir"配置如何在集群中工作?

我已按照Apache“单节点设置”说明在单节点上设置dfs.replication。但是后来我按照“ClusterSetup”进行操作,但它没有提到这个属性,所以我不知道这是要在Namenode上设置的属性,还是也/仅在Datanodes上设置的属性..我还读到在数据节点上的dfs.datanode.data.dir中设置多个(逗号分隔)路径将复制所有路径上的数据。所以我的问题是:dfs.replication将对哪个节点产生影响,如果dfs.datanode.data.dir的多个路径是设置,这些额外的独立复制是否仅针对每个数据节点,或者这些是否也以某种方式与dfs.replicat

java.io.InvalidClassException : org. apache.spark.internal.io.HadoopMapReduceCommitProtocol;本地类不兼容

语境我正在Spark集群上执行Spark工具(如果有兴趣,this是Spark工具)。该工具正在从HDFS读取输入文件,并将在HDFS中生成输出文件。我有2个AzureVM,带有一个SparkMaster容器、一个Namenode容器、两个SparkWorker容器和两个Datanode容器(还有两个容器以提供该工具所需的文件,但我认为这不重要),配备DockerSwarm。这是我用来运行Spark工具的Bash命令:/gatk/gatkBwaAndMarkDuplicatesPipelineSpark\--inputhdfs://namenode:8020/PFC_0028_SW_C

hadoop - pig 0.13 错误 2998 : Unhandled internal error. org/apache/hadoop/mapreduce/task/JobContextImpl

刚刚安装了Pig0.13,我正在尝试将它与Hadoop1.1.2一起使用。(Pig文档指出Pig0.13与Hadoop1.1.2兼容)。根据Pig安装说明,我设置了$PIG_CLASSPATH指向定义了core-site.xml、hdfs-site.xml和mapred-site.xml的/etc/hadoop。Hadoop集群功能正常,可以很好地处理非Pig作业。根据下面的错误描述,我了解到Pig无法找到它正在寻找的JobContextImpl类。根据Hadoop1.1.2API文档,我不认为“任务”是“mapreduce”包的子包。我尝试将hadoop-core-1.1.2.jar

hadoop - 如何在hadoop中解析 'file could only be replicated to 0 nodes, instead of 1'?

我有一个简单的hadoop作业,可以抓取网站并将它们缓存到HDFS。映射器检查HDFS中是否已存在URL,如果存在,则使用它,否则下载页面并将其保存到HDFS。如果在下载页面时遇到网络错误(404等),则URL将被完全跳过-不会写入HDFS。每当我运行一个小列表~1000个网站时,我似乎总是遇到这个错误,它在我的伪分布式安装中反复使作业崩溃。可能是什么问题?我正在运行Hadoop0.20.2-cdh3u3。org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/user/raj/cache/9b4edc6adab6f

amazon-ec2 - HDFS 错误 : could only be replicated to 0 nodes, 而不是 1

我在EC2中创建了一个ubuntu单节点hadoop集群。测试一个简单的文件上传到hdfs可以在EC2机器上运行,但不能在EC2之外的机器上运行。我可以从远程机器通过Web界面浏览文件系统,它显示一个报告为正在服务的数据节点。已经打开了从0到60000(!)的安全性中的所有tcp端口,所以我不认为是这样。我得到了错误java.io.IOException:File/user/ubuntu/piescouldonlybereplicatedto0nodes,insteadof1atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.ge

php - Laravel 5 在 ajax 请求上随机发送 500 Internal Server Error

在我的应用程序中,Laravel5在ajax请求上随机发送500个内部服务器错误(例如,在10个200OK请求中,一个500内部服务器错误请求)。CSRFtoken已正确设置:$(function(){$.ajaxSetup({timeout:3000,headers:{'X-CSRF-TOKEN':$('meta[name="csrf-token"]').attr('content')}});});这就是Laravel所说的我该如何解决这个问题或找出问题所在的代码位置? 最佳答案 随机Ajax请求错误主要是由配置问题引发的。在st