草庐IT

default_network

全部标签

Hadoop MapReduce : default number of mappers

如果我不指定映射器的数量,如何确定该数量?是否有从配置文件(例如mapred-site.xml)中读取的默认设置? 最佳答案 在Chris上面添加的内容上添加更多内容:映射的数量通常由输入文件中的DFSblock数量决定。虽然这会导致人们调整他们的DFSblock大小来调整map的数量。map的正确并行级别似乎是大约10-100个map/节点,尽管对于非常cpu-lightmaptask,这可以达到300左右。任务设置需要一段时间,因此最好至少花一分钟时间执行map。您可以通过修改JobConf的conf.setNumMapTask

networking - 如何为 Hadoop 生态系统配置主机文件

这个问题可能看起来很明显,但由于hadoop集群上主机文件的错误配置,我遇到过很多次。任何人都可以描述如何为hadoop和类似环境使用(如cloudera)设置主机文件和其他相关网络配置。特别是当我必须同时添加主机名和FQDN时更新这是主机名cdh4hdm中的一台机器的主机文件,具有hadoopMaster的作用127.0.0.1   cdh4hdmlocalhost#127.0.1.1   cdh4hdm#ThefollowinglinesaredesirableforIPv6capablehosts172.26.43.40  cdh4hdm.imp.co.in      kdc11

networking - Hadoop 节点在一段时间后死亡(崩溃)

我有一个包含16个(ubuntu12.04服务器)节点(1个主节点和15个从节点)的hadoop集群。它们通过私有(private)网络连接,master也有一个公共(public)IP(它属于两个网络)。当我运行小任务时,即小输入和小处理时间,一切正常。然而,当我运行更大的任务时,即输入数据为7-8GB时,我的从属节点开始一个接一个地死掉。从网络用户界面(http://master:50070/dfsnodelist.jsp?whatNodes=LIVE)我看到最后一个联系人开始增加,从我的集群提供商的网络用户界面,我看到节点崩溃了。这是一个节点的屏幕截图(我无法向上滚动):另一台机

hadoop - HBase ERROR : hbase-default. xml 文件似乎是针对旧版本的 HBase (null)

我正在尝试编写一个程序来连接到HBase。但是当我执行以下命令时HBaseConfiguration.create();我收到以下错误:."hbase-default.xml文件似乎是旧版本的HBase(null),这个版本是0.92.1-cdh4.1.2。当我深入挖掘并在内部进行调试时,请观察以下内容:classHBaseConfigurationprivatestaticvoidcheckDefaultsVersion(Configurationconf){if(conf.getBoolean("hbase.defaults.for.version.skip",Boolean.FA

hadoop - 在 core-site.xml 中设置 fs.default.name 将 HDFS 设置为安全模式

我在一台机器上以伪分布式模式安装了ClouderaCDH4发行版并成功测试它是否正常工作(例如可以运行MapReduce程序,在Hive服务器上插入数据等)但是,如果我有机会core-site.xml文件将fs.default.name设置为机器名而不是localhost并重启NameNode服务,HDFS进入安全-模式。在更改fs.default.name之前,我运行了以下命令来检查HDFS的状态:$hadoopdfsadmin-report...ConfiguredCapacity:18503614464(17.23GB)PresentCapacity:13794557952(12

join - 配置单元外部连接 : how to change the default NULL value

对于hive外连接,如果一张表中不存在连接键,hive将置为NULL。是否可以为此使用其他值?例如:表1:user_id,name,age1Bob232Jim43表2:user_id,txn_amt,date120.002013-12-10110.002014-07-01如果我对user_id执行LEFTOUTERJOIN:INSERTINTOTABLEuser_txnSELECTTable1.user_id,Table1.name,Table2.txn_amt,Table2.dateFROMTable2LEFTOUTERJOINTable1ONTable1.user_id=Table

networking - Hadoop HDFS - 无法连接到主服务器上的端口

我已经设置了一个小型Hadoop集群用于测试。NameNode(1台机器)、SecondaryNameNode(1台)和所有DataNodes(3台)的设置非常顺利。这些机器被命名为“master”、“secondary”和“data01”、“data02”和“data03”。所有DNS均已正确设置,无密码SSH已从主/辅助设备配置到所有机器并返回。我使用bin/hadoopnamenode-format格式化集群,然后使用bin/start-all.sh启动所有服务。使用jps检查所有节点上的所有进程是否已启动并正在运行。我的基本配置文件如下所示:fs.default.namehdf

networking - Hadoop Datanodes找不到NameNode

我在VirtualBox中设置了一个分布式Hadoop环境:4个虚拟Ubuntu11.10安装,一个作为主节点,另外三个作为从属节点。我关注了thistutorial启动并运行单节点版本,然后转换为完全分布式版本。当我运行11.04时它工作得很好;然而,当我升级到11.10时,它坏了。现在我所有的奴隶日志都显示以下错误信息,重复得令人作呕:INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:master/192.168.1.10:54310.Alreadytried0time(s).INFOorg.apache.hadoop

performance - spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别?

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?我在SparkSQL中都尝试过设置,但是第二阶段的任务数一直是200。 最佳答案 来自答案here,spark.sql.shuffle.partitions配置在为连接或聚合改组数据时使用的分区数。spark.default.parallelism是RDD中的默认分区数s由join等转换返回,reduceByKey,和parallelize当用户未明确设置时。注意spark.default.parallelism似

php - laravel-5.4 - 错误 :Creating default object from empty value

我想在数据库中存储图像路径。我在vendor\laravel\framework\src\Illuminate\Foundation\Auth\RegistersUsers.php下的Controller代码如下:publicfunctionregister(Request$request){$this->validator($request->all())->validate();if($request->hasFile('image')){$image_name=$request->file('image')->getClientOriginalName();$image_path