草庐IT

hdfs-audit

全部标签

hadoop - 网格计算和HDFS(Hadoop分布式文件系统)有什么区别?

有没有人能解释一下HDFS和网格计算之间的主要区别? 最佳答案 我认为您必须在您的问题中将HDFS替换为Hadoop。Hadoop是一个框架,它允许使用简单的编程模型-基于YARN(YetAnotherResourceNegotiator)的MapReduce框架跨商品计算机集群分布式处理大型数据集。HDFS是一种文件系统,设计用于存储具有流数据访问模式的超大文件,在商用硬件上运行集群。网格计算方法基于在一组机器上分配工作,这些机器访问由存储区域网络(SAN)托管的共享文件系统。这适用于主要计算密集型作业,但当节点需要访问更大的数据

hadoop - 使用 Sqoop 将 RDBMS 更新到 HDFS

我正在尝试编写一个sqoop作业来实现以下要求。我有一个XYZ表,每天可能会创建大约100万条新记录和50万条更新。我将有一个EndofdaySqoop作业,它应该将增量数据从XYZ获取到HDFS,还获取更新的记录并将其与HDFS同步。我很乐意实现第1点,但找不到第2点的可行解决方案。请帮忙!!!!谢谢,拉古 最佳答案 对于这种特殊情况,您可以在需要的地方执行增量sqooplastmodified–check-columnlast_modified_col–last-value“2014-10-0315:29:48.66″示例查询请

linux - 从本地文件上传数据到 hdfs 时出错

您好,我刚刚开始研究Hadoop。当我尝试在HDFS上上传数据以在hadoop上运行mapreduce作业时。我遇到了问题。我运行以下命令hduser@bharti-desktop:/home/maitreyee/hadoop$bin/hadoopdfs-copyFromLocal/home/hduser/gutenberg/user/hduser/gutenberg然后在终端中弹出以下错误:14/12/0416:59:48WARNconf.Configuration:badconffile:elementnot14/12/0416:59:48WARNconf.Configuratio

hadoop - 从远程位置(某个远程机器上的本地文件系统)拉取一个文件到 Hadoop HDFS

我在不属于Hadoop(或HDFS)数据中心的机器(比如A)中有文件。所以机器A位于远离HDFS数据中心的位置。是否有脚本或命令或程序或工具可以在连接到Hadoop(数据中心的一部分)的机器上运行并将文件从机器A直接拉入HDFS?如果是,最好和最快的方法是什么?我知道有很多方法,比如WebHDFS、Talend,但它们需要从机器A运行,要求是避免这种情况并在数据中心的机器上运行它。 最佳答案 有两种方法可以实现:可以使用scp拉取数据并存放到一个临时位置,然后复制到hdfs,删除临时存放的数据。如果您不想将其保留为两步过程,您可以编

hadoop - Flume to HDFS 将一个文件分割成很多文件

我正在尝试将一个700MB的日志文件从flume传输到HDFS。我已按如下方式配置了flume代理:...tier1.channels.memory-channel.type=memory...tier1.sinks.hdfs-sink.channel=memory-channeltier1.sinks.hdfs-sink.type=hdfstier1.sinks.hdfs-sink.path=hdfs://***tier1.sinks.hdfs-sink.fileType=DataStreamtier1.sinks.hdfs-sink.rollSize=0source是一个spool

hadoop - 如何使用 PIG 将数据从本地系统加载到 hdfs

我有一个csv文件sample.csv并且位于\home\hadoop\Desktop\script\sample.csv中。我尝试使用加载PIGmovies=load'/home/hadoop/Desktop/script/sample.csv'usingPigStorage(',')as(id,name,year,rating,duration);但是这个PIG语句给出了一个错误,但是当给出语句作为dumpmovies;时,它抛出错误并显示输入和输出失败。请建议我如何使用pig语句加载数据。 最佳答案 如果你的输入文件在本地,那

hadoop - 在运行 S3DistCp 时设置 HDFS 复制因子

我正在使用S3DistCp将内容从S3复制到AmazonEMRHDFS。对于一些工作,我的空间不足,希望通过降低复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人可以帮助解决这个问题吗? 最佳答案 您通常不希望在逐个作业的基础上修改集群的复制因子。复制用于数据冗余(在发生故障的情况下)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义的值。默认情况下,AmazonEMR将1-3个核心节点的默认复制因子设置为1,将4-9个核心节点的值设置为2,将10+个核心节点的值设置为3。理论上您可以更改dfs.rep

python - 在没有pydoop的情况下列出HDFS Python中的所有文件

我有一个在centos6.5上运行的hadoop集群。我目前正在使用python2.6。由于不相关的原因,我无法升级到python2.7。由于这个不幸的事实,我无法安装pydoop。在hadoop集群中,我有大量名为raw"yearmonthdaytimehour".txt的原始数据文件,括号中的所有内容都是数字。有没有办法在python中列出hadoop目录中的所有文件?所以程序会创建一个看起来像这样的列表。listoffiles=['raw160317220001.txt','raw160317230001.txt',....]这将使我需要做的一切变得容易得多,因为从第2天第15小

hadoop - 我需要在哪里创建 HDFS 用户?

我必须为需要在HDFS上存储数据的应用程序创建一个帐户。我知道要在HDFS上创建用户(我使用的是HDP2.3),我必须执行这些命令:useradd-G*groupname**username*hdfsdfs-mkdir/user/*username*hdfsdfs-chown*username*:*groupname*/user/*username*我的问题是:我知道当我在HDFS上创建一个文件夹时,它不会在所有集群上复制,只有数据分布在所有数据节点上。我是要在集群的每个节点(namenode+datanode+edgenode)上执行这些命令,还是只在应用程序用来访问HDFS的节点(

hadoop - Camus Migration - Kafka HDFS Connect 不从设置的偏移量开始

我目前正在使用ConfluentHDFSSinkConnector(v4.0.0)来替换Camus。我们正在处理敏感数据,因此我们需要在切换到连接器期间保持偏移量的一致性。割接计划:我们创建了hdfs接收器连接器并订阅了一个写入临时hdfs文件的主题。这将创建一个名为connect-的消费者组使用DELETE请求停止了连接器。使用/usr/bin/kafka-consumer-groups脚本,我能够将连接器消费者组kafka主题分区的当前偏移量设置为所需值(即加缪写的最后偏移+1)。当我重新启动hdfs接收器连接器时,它会继续从上次提交的连接器偏移量读取并忽略设置值。我希望hdfs文