parallel-port

hadoop - 主机 :port pair: PBUF

我正在使用的版本，Hadoop2.2.0和HBase0.96.1.1，所有节点中的Hive0.12.0谁能解释给我的这个错误？hive>CREATEEXTERNALTABLEtest(keystring,valuesmap)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,values:"TBLPROPERTIES("hbase.table.name"="test");FAILED:ExecutionError,retur

hadoop - yarn : maximum parallel Map task count

Hadoop权威指南中提到了以下内容"Whatqualifiesasasmalljob?Bydefaultonethathaslessthan10mappers,onlyonereducer,andtheinputsizeislessthanthesizeofoneHDFSblock."但是在YARN上执行作业之前，它如何计算作业中没有映射器？在MR1中，映射器的数量取决于编号。输入split。YARN也一样吗？在YARN容器中是灵活的。那么有没有什么方法可以计算可以在给定集群上并行运行的最大映射任务数(某种严格的上限，因为它会让我粗略地了解我可以并行处理多少数据？)？

parallel maximum section 射器 YARN hadoop mapreduce hadoop-yarn

hadoop - 如何配置hadoop使用非默认端口: "0.0.0.0: ssh: connect to host 0.0.0.0 port 22: Connection refused"

当我运行start-dfs时，出现以下错误，看起来我需要告诉hadoop使用不同的端口，因为这是我通过ssh进入本地主机时所需要的。换句话说，以下操作成功:ssh-p2020localhost.[WedJan0616:57:34root@~]#start-dfs.sh16/01/0616:57:53WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableStartingnamenodeson[localhost]l

hadoop Connection gt lt code

hadoop - hbase.master.port 以编程方式覆盖？

我从cloudera5.3.3发行版安装了hbase，当我运行hbase时，一切似乎都运行良好......当我尝试通过/etc/hbase/conf/hbase-site.xml分配hbase.master.port时，它不会从那里选择它。我从主节点信息中看到这个http://MASTERNODE:60010/confhbase.master.port0programaticallyhbase分布:0.98.6-cdh5.3.3这个“以编程方式”是什么意思，我如何禁用/覆盖它？最佳答案回答我自己的问题:(因为我刚刚发现hbase

hadoop master hbase cloudera section

hadoop 数据节点无法启动。 "does not contain a valid host:port authority"

我目前使用的是hadoop1.2.1(因为我需要运行一个只支持这个版本的空间处理软件)。我正在尝试以一个主节点和三个从节点的多节点模式进行部署。我确定我能够在所有主从之间无需密码(包括他们自己)之间进行ssh。每个节点上的主机名也是正确的。每个节点共享相同的主机文件:192.168.56.101master192.168.56.102slave1192.168.56.103slave2192.168.56.104slave3我的slaves节点一直有问题，错误日志信息如下，2015-05-2123:39:16,841ERRORorg.apache.hadoop.hdfs.server.

amp authority DataNode hadoop apache

parallel-processing - HBase 如何跨区域服务器分区表？

请告诉我HBase如何跨区域服务器分区表。例如，假设我的行键是0到10M之间的整数，并且我有10个区域服务器。这是否意味着第一个区域服务器将存储键值为0-10M、第二个1M-2M、第三个2M-3M、...第十个9M-10M的所有行？我希望我的行键是时间戳，但我认为大多数查询将适用于最新日期，所有查询将仅由一个区域服务器处理，是这样吗？或者这些数据可能会以不同的方式传播？或者也许我可以以某种方式创建比我拥有的区域服务器更多的区域，所以(根据给定的示例)服务器1将具有key0-0,5M和3M-3,5M，这样我的数据会更平均地分布，是吗可能的？更新我刚刚发现有选项hbase.hregion.

parallel-processing processing section 意味着的 hadoop hbase

hadoop - 如何调整 mapred.reduce.parallel.copies？

阅读后http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html我们想尝试使用mapred.reduce.parallel.copies。该博客提到“非常仔细地查看日志”。我们怎么知道我们已经到达最佳点？我们应该寻找什么？我们如何检测到过度并行化？最佳答案为了做到这一点，您基本上应该寻找4个东西:CPU、RAM、磁盘和网络。如果您的设置超过了这些指标的阈值，您可以推断出您正在突破极限。例如，如果您将“mapred.reduce.par

parallel hadoop section mapred 洗牌

hadoop - Spark 流 : Micro batches Parallel Execution

我们正在从Kafka的sparkstreaming中接收数据。一旦在SparkStreaming中开始执行，它只执行一个批处理，其余批处理开始在Kafka中排队。OurdataisindependentandcanbeprocessesinParallel.我们尝试了具有多个执行器、内核、背压和其他配置的多种配置，但到目前为止没有任何效果。有很多消息在排队，一次只处理了一个微批处理，其余的都留在队列中。我们希望最大程度地实现并行性，以便没有任何微批处理排队，因为我们有足够的可用资源。那么我们如何通过最大限度地利用资源来减少时间。//StartreadingmessagesfromKaf

Execution Parallel blockquote String code hadoop apache-spark apache-kafka spark-streaming

hadoop - Spark : multiple spark-submit in parallel

我有一个关于ApacheSpark的一般性问题:我们有一些使用Kafka消息的spark流脚本。问题:它们在没有特定错误的情况下随机失败...有些脚本在我手动运行时什么都不做，其中一个失败并显示此消息:ERRORSparkUI:FailedtobindSparkUIjava.net.BindException:Addressalreadyinuse:Service'SparkUI'failedafter16retries!所以我想知道是否有一种特定的方法可以并行运行脚本？它们都在同一个jar里，我用Supervisor运行它们。Spark安装在ClouderaManager5.4onY

spark-submit multiple spark SLF4J SLF4 hadoop apache-spark cloudera hadoop-yarn

performance - spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别？

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别？我在SparkSQL中都尝试过设置，但是第二阶段的任务数一直是200。最佳答案来自答案here,spark.sql.shuffle.partitions配置在为连接或聚合改组数据时使用的分区数。spark.default.parallelism是RDD中的默认分区数s由join等转换返回,reduceByKey,和parallelize当用户未明确设置时。注意spark.default.parallelism似

spark performance code section apache-spark hadoop apache-spark-sql

53 54 555657 58 59