protocol-handler

hadoop - setsockopt IPV6_TCLASS 16 : Protocol not available, Cygwin64

我正在尝试在Win8.1上使用Cygwin64安装Hadoop1.0.3。完成配置后，启动SSHD服务，我运行sshcyg_server@localhost并得到这些:cyg_server@localhost'spassword:setsockoptIPV6_TCLASS16:Protocolnotavailable:我是Cygwin64和Hadoop的新手，在此先感谢您的帮助。最佳答案从客户端，只需添加-oAddressFamily=inet给传递给ssh的参数，或者加上AddressFamilyinet到~/.ssh/con

amazon-web-services - 使用 Hadoop 版本 2.7.2 从 Spark 使用 S3a 协议(protocol)访问 S3

我正在尝试从pyspark(版本2.2.0)访问s3(s3a协议(protocol))，但我遇到了一些困难。我正在使用Hadoop和AWSSDK包。pyspark--packagescom.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.2这是我的代码:sc._jsc.hadoopConfiguration().set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")sc._jsc.hadoopConfiguration().set("f

amazon-web-services services java apache at hadoop apache-spark amazon-s3 pyspark

java - 为什么 HDFS 使用 Protocol Buffer 而不是 Java 序列化 API 进行序列化？

为什么HDFS使用ProtocolBuffer而不是Java序列化API？如果我想通过Java序列化将对象从一个数据节点发送到另一个数据节点怎么办？我已经尝试了几件事，但我收到以下错误:java.io.WriteAbortedException:写入中止；java.io.NotSerializableException:java.lang.Thread 最佳答案因为具有外部架构定义的格式(如ProtocolBuffers)比生成非常冗长文件的内置Java序列化更节省空间。HDFS可以使用不同的格式来存储数据。提供最佳空间效率同时又

Protocol Buffer section java noreferrer hadoop serialization hdfs protocol-buffers

hadoop - 如何使用 LZO 以外的压缩处理 Hadoop Map/Reduce 中的 Protocol Buffer 文件？

我想使用HadoopMap/Reduce来处理delimited使用LZO以外的东西压缩的ProtocolBuffer文件，例如xz或gzip。Twitter的elephant-bird库似乎主要支持读取LZO压缩的protobuf文件，因此似乎不能满足我的需求。是否有现有的库或标准方法来执行此操作？(注意:正如您从我选择的压缩算法中看到的那样，解决方案没有必要使protobuf文件可拆分。您的答案甚至不需要指定特定的压缩算法，但应该至少允许我提到的其中之一。) 最佳答案您可能需要查看Hadoop的RAgzip补丁，以处理大型gz

Protocol hadoop section strong noreferrer gzip protocol-buffers lzo xz

java - 使用 native 协议(protocol)的 Cassandra 自定义 map-reduce 输入格式化程序

我正在使用ApacheCassandra(1.2)和ApacheMap-Reduce处理一些数据。目前，我使用org.apache.cassandra.hadoop.cql3中的CqlPagingInputFormat。此提供程序使用Thrift来提取数据。Thrift似乎相当慢(300M记录，在3节点集群中需要8多个小时才能读取)，并且由于存在原生二进制协议(protocol)，我想知道是否有人使用过它。我对任何其他优化和配置调整不感兴趣-这是一个单独的问题。我的问题是是否有直接使用Cassandranative协议(protocol)的map-reduce输入格式化程序的实现？如果

自定 map-reduce section apache hadoop java mapreduce cassandra datastax-java-driver

hadoop - 是否有 HDFS 客户端有线协议(protocol)规范？

我有兴趣找出为HDFS客户端定义的有线协议(protocol)。我能找到的只是各种HDFS客户端绑定(bind)的源代码。如果有人可以指出协议(protocol)规范，我们将不胜感激。谢谢。最佳答案从Hadoop0.23+开始，所有协议(protocol)都切换到了ProtocolBuffers。可以找到HDFS协议(protocol)定义here.还有一个WebHDFS向HDFS添加REST接口(interface)的实现。但是，IIRC，像Horotonworks和Cloudera这样的大供应商还不推荐使用它。

protocol hadoop section client protocols hdfs

hadoop - 如何在 Hadoop 中刷新 job.submission.protocol.acl 的服务 ACL

我正在使用Cloudera的HadoopCDH发行版，并且最近从CDH3升级到了CDH4。在CDH3中，我曾经能够将用户名添加到hadoop-policy.xml中，用于:security.client.protocol.aclsecurity.job.submission.protocol.acl然后运行:hadoopdfsadmin-refreshServiceAclhadoopmradmin-refreshServiceAcl而且，瞧，用户可以访问HDFS并运行MR作业。自从升级到CDH4后，现在添加了第一个用户，看起来有些东西发生了变化。仍然在hadoop-policy.xml

何在 submission hadoop code section authorization acl

Hadoop shuffle 使用哪种协议(protocol)？

在Hadoop数据的洗牌阶段，映射数据在集群的节点之间传输根据reducer的分区。Hadoop使用什么协议(protocol)在reduce阶段跨节点执行数据洗牌？最佳答案我第一次真的笑了，但是整个洗牌和合并是由一个HTTPServlet完成的。您可以在匿名类MapOutputServlet的Tasktrackers源代码中看到这一点。它获取带有任务和作业ID的HTTP请求，然后它将传输传入的输入流进入磁盘上的本地文件系统。关于Hadoopshuffle使用哪种协议(protoc

protocol shuffle section code 洗牌 hadoop protocols mapreduce distributed-computing

ssh - 如何通过 java 的 hdfs 协议(protocol)访问 hadoop？

我找到了一种通过hftp连接到hadoop的方法，它工作正常，(只读):uri="hftp://172.16.xxx.xxx:50070/";System.out.println("uri:"+uri);Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(URI.create(uri),conf);fs.printStatistics();但是，我想读/写以及复制文件，也就是说，我想通过hdfs连接。如何启用hdfs连接以便我可以编辑实际的远程文件系统？我试图从hftp->hdfs更改上面的协议(protoc

protocol hadoop FileSystem apache ssh hdfs

hadoop - Protocol Buffer 错误 : Hbase createTable & put in java code(protobuf-LiteralByteString)

我正在使用kafka、sparkstream和hbase开发java应用程序。通过mavencleaninstall编译代码后，当我运行我的应用程序时遇到以下错误:hadoop版本:2.7.3HBase版本:hbase-0.98.24-hadoop2星火:2.1.0虽然我已经检查并应用了该站点中以前的答案，但我仍然遇到了问题。谢谢...`Exceptioninthread"main"org.apache.hadoop.hbase.DoNotRetryIOException:java.lang.NoClassDefFoundError:com/google/protobuf/Litera

protobuf-LiteralByteString LiteralByteString java hadoop protobuf hbase protocol-buffers