草庐IT

Redisson分布式锁

全部标签

unix - 使用命令行查找 hdfs 分布式文件中的总行数

我在一个集群上工作,数据集以分布式方式保存在hdfs中。这是我所拥有的:[hmi@bdadev-5~]$hadoopfs-ls/bdatest/clm/data/Found1840items-rw-r--r--3bdasupergroup02015-08-1100:32/bdatest/clm/data/_SUCCESS-rw-r--r--3bdasupergroup344043902015-08-1100:32/bdatest/clm/data/part-00000-rw-r--r--3bdasupergroup344040622015-08-1100:32/bdatest/clm/

hadoop - HDFS伪分布式模式namenodes启动报错

我正在尝试以伪分布式模式在MacOSX(Java7)上启动HDFS。我按照在不同地方找到的说明(例如https://hadoop.apache.org/docs/r1.2.1/single_node_setup.html)创建了一个包含配置文件的目录。我可以在不需要密码的情况下通过ssh连接到本地主机。但是当我尝试启动hdfs时,我得到以下信息:$start-dfs.sh--config~/hadoop-pseudodistributed2014-03-1201:15:14.125java[84567:1903]UnabletoloadrealminfofromSCDynamicSto

Hadoop 分布式缓存 : file not found exception

我正在尝试在MapReduce上实现K-means。我已将初始质心文件上传到分布式缓存在驱动类中DistributedCache.addCacheFile(newURI("GlobalCentroidFile"),conf);在我的映射器类中Path[]localFiles=DistributedCache.getLocalCacheFiles(job);Filefile=newFile(localFiles[0].getName());System.out.println("Filereadis"+localFiles[0].getName());BufferedReaderbuff

python - 从 MrJob 访问分布式缓存

我正在使用MrJob编写hadoop应用程序。我需要使用分布式缓存来访问一些文件。我知道hadoop流中有一个选项-files但不知道如何在程序中访问它。感谢您的帮助。 最佳答案 我认为你必须使用mrjob.compat.supports_new_distributed_cache_options(版本)然后使用-files和-archives代替-cacheFile和-cacheArchive也许你会得到更多here 关于python-从MrJob访问分布式缓存,我们在StackOve

json - Hadoop中JSON的分布式处理

我想在Hadoop中处理一个约300GB的JSON文件。据我了解,JSON由单个字符串组成,其中嵌套了数据。现在,如果我想使用Google的GSON解析JSON字符串,那么Hadoop就不必将整个负载放在单个节点上,因为JSON在逻辑上不可分割。如果我希望文件应该在不同节点上并行处理,我该如何对文件进行分区(我可以从逻辑上查看数据来划分分区)。在将文件加载到HDFS本​​身之前,我是否必须破坏文件?JSON是否绝对有必要由一台机器(或节点)至少解析一次? 最佳答案 假设您知道可以在逻辑上将JSON解析为逻辑上独立的组件,那么您只需编

hadoop - 尝试将文件存储在 hadoop 分布式缓存中时出现 FileNotFound 异常

我尝试将本地文件存储在分布式缓存中。该文件存在,但我得到一个文件未找到异常代码片段:DistributedCache.addCacheFile(newURI("file://"+fileName),conf);RunningJobjob=JobClient.runJob(conf);异常(exception):Errorinitializingattempt_201310150245_0066_m_000021_0:java.io.FileNotFoundException:File/Workflow/datadoesnotexistatorg.apache.hadoop.fs.Raw

python - 如何在 hadoop 集群上运行 xgboost 进行分布式模型训练?

我正在尝试使用XGBoost为上下文广告的1亿次展示构建一个CTR预测模型,为了实现同样的目标,我想在hadoop上尝试XGboost,因为我在HDFS中拥有所有可用的展示数据。有人可以为python引用相同的工作教程吗? 最佳答案 有很多方法可以做到:如果您有一些较低级别的逻辑分组,比如某些项目部门的CTR,并且您想要为部门制作本地化模型,那么您可以使用mapreduce类型的设置。它将确保属于单个部门的所有数据最终都在单个YARN容器中,您可以在该数据上构建模型。NLineInputFormat是一个聪明的技巧,它使这个map只

java - Hadoop伪分布式模式下各种守护进程的IP地址

我已经在伪分布式模式下安装了Hadoop2.7.1。以下守护进程的IP是什么:IPaddressofNamenode?IPaddressofDatanode?IPaddressofResourceManager?IPaddressofNodeManager?我机器上的/etc/hosts文件内容如下:127.0.0.1localhost127.0.1.1linuxPClinuxPC是我机器的名字。 最佳答案 对于伪分布式,对所有守护进程使用localhost。127.0.0.1是用于localhost的标准IP。如果需要从主机外部访

hadoop - 分布式文件系统(如 HDFS)上的 OpenMPI

HDFS(Hadoop分布式文件系统)等分布式文件系统是否支持OpenMPI? 最佳答案 Hadoop不是使用MPI实现的,因为MPI是一种消息传递接口(interface),而MapReduce是一种最初由Google开发用于运行大数据应用程序的工具。Hadoop/Mapreduce的主要功能之一是容错。但它在MPI中不受支持。引用Whyisn'tHadoopimplementedusingMPI?MPIandMapReduce让我们来回答您的问题,一篇文章说,在YARN下运行MPI作业的前景是一个诱人的提议。如前所述,现在存储在

分布式系统架构设计之分布式数据存储的安全隐私和性能优化

五、安全性和隐私在前面分布式系统部分,有对安全性做过介绍,如前面所述,在分布式系统中,确保系统的安全性和隐私是至关重要的。安全性关注系统的防护措施,而隐私是关注用户的个人信息保护。安全性身份认证:确保用户和系统组件的身份是合法的,通过通过密码、令牌或证书实现授权:确保用户只能访问其被授权的资源,通过访问控制列表(ACL)或角色基础访问控制(RBAC)实现加密:保护数据在传输和存储中的安全,使用加密算法对数据进行加密和解密防火墙和入侵检测系统:用于监测和防御未经授权的访问和攻击安全审计:记录和分析系统中的安全事件,以便检测潜在的威胁隐私数据脱敏:在系统中对敏感数据进行脱敏处理,以减少对用户隐私的