草庐IT

banner_data

全部标签

hadoop - map 缩小 : Which is the underlying Data Structure used

我想知道如果在HadoopMapReduce中使用如此大的数据集,那么hadoop使用的数据结构是什么。如果可能,请有人向我提供hadoop中底层数据结构的详细View。 最佳答案 HDFS是Hadoop默认的底层存储平台。从某种意义上说,它与任何其他文件系统一样——它不关心文件的结构。它仅确保文件将以冗余方式保存并可快速检索。因此,作为用户,您可以完全根据自己的喜好来存储文件。MapReduce程序只是将文件数据作为输入提供给它。不一定是整个文件,而是它的一部分取决于InputFormats等。然后Map程序可以使以任何想要的方式

hadoop - [hdfs]如何为每个datanode配置不同的dfs.datanode.data.dir?

我使用ambari来设置hadoop集群。但是当我配置hdfs的配置时。我发现如果我修改dfs.datanode.data.dir,configure会在所有datanodes上生效...如何为每个数据节点配置不同的配置?比如机器A有两block磁盘,分别挂载到/data1、/data2但是机器B只有一个盘,挂载到/data1所以我想将机器A的dfs.datanode.data.dir配置为“/data1,/data2”。但只有机器B的“/data1” 最佳答案 不存在的HDFS目录将被忽略。都放进去,没关系。

hadoop - pig : Unable to load data using PigStorage

我在一个txt文件中有这个smaple数据集(格式:名字,姓氏,年龄,性别)(Eric,Ack,27,M),(Jeremy,Ross,29,F)(Jenny,Dicken,27,F),(Vijay,Sampath,40,M)(Angs,Dicken,28,M),(Venu,Rao,28,M)(Mahima,Mohanty,29,F),(Kenny,Oath,28,M)我正在尝试像这样加载此数据:tuple_record=LOAD'~/Documents/Pig_Tuple.txt'USINGPigStorage(',')AS(details:tuple(firstname:charar

azure - 在 Azure 上的 HDInsights 群集上使用 Data Lake 或 Blob

在Azure中创建HDInsightsHadoop集群时,有两个存储选项。AzureDataLakeStore(ADLS)或AzureBlob存储。这两个选项之间的真正区别是什么?它们如何影响性能?我找到了这个页面https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-comparison-with-blob-storage但它不是很具体,只使用了非常笼统的术语,比如“ADLSisoptimizedforanalytics”。这是否意味着它更适合存储HDInsights文件系统?如果ADLS确实更快

java - 在 Java 中使用 Avro 的 MapReduce : String vs CharSequence vs Utf8 data types

我是使用Avro编写HadoopMapReduce的初学者,不清楚传入map/reduce方法与PairwithString、CharSequence或Utf8之间有什么区别?如果字符串只是简单的“helloworld”之类的东西怎么办?例如,这里有一个简单的映射方法,在本例中使用CharSequence作为输出键类型:publicvoidmap(Pairdatum,AvroCollector>collector,Reporterreporter)throwsIOException{Integernumber_one=newInteger(1);Stringoutput_key="he

data-structures - 如何存储图表并在其 hbase 上运行类似分析的页面排名?

很抱歉,如果这个问题看起来有点复杂,但我认为它都是相关的,所以我想尝试一下就得到答案。基本上我有一个分层图*,它有各种数据集,这些数据集只连接到下一组数据(所以set1的顶点有set2的边,依此类推,但set1没有连接到set3或set2以外的任何东西.这可能是相关的不确定)。通常,您可以将我的数据视为一棵巨大的家谱树(我在每个集合中添加大约十亿个节点),我不断为每个新集合加载新的世代(家族创建新家族,没有边向后退)。我有一个正在运行的Hbase/hadoop系统,我知道如何使用java添加列和值,但我不知道该怎么做:以图形类型格式将数据添加到hbase(因为它是hbase,我想以一种

java - Hadoop : Tools for visualizing key value data and files for development

是否有任何简单、易于启动的java工具来可视化来自mapreduce作业目录的键/值数据?具体来说,我想浏览一个20个作业的mapreduceworkflow,点击单个文件并查看数据,甚至可能看到文件大小的直方图。这里有一些注意事项,例如-一些文件有序列化数据(不仅仅是文本)显然,这个系统在“云规模”上使用可能会很愚蠢,而不是一个开发工具。尽管如此,这样的工具对于开发和本地调试大型连接的m/r管道很有用。这是出于开发目的(我不是试图在真实集群中可视化分布式键/值hadoop数据)。 最佳答案 检查KarmaSphereStudioM

http - 通过 StreamSets Data Collector 流式传输时在文件名中附加 UUID

我正在使用HttpClientorigin将文件从HTTPurl流式传输到Hadoop目标,但目标中的文件名附加了一些随机uuid。我希望文件名与源中的一样。示例:源文件名为README.txt,目标文件名为README_112e5d4b-4d85-4764-ab81-1d7b6e0237b2.txt我希望目标文件名为README.txt我会向您展示我的配置。HTTPClient:GeneralName:HTTPClient1Description:OnRecordError:SendtoErrorHTTPResourceURL:http://files.data.gouv.fr/si

hadoop - 错误 : Failed to create Data Storage while running embedded pig in java

我写了一个简单的程序来测试java中的嵌入式pig在mapreduce模式下运行。我运行的服务器hadoop版本是0.20.2-cdh3u4a,pig版本是0.10.0-cdh3u4a。当我尝试在本地模式下运行时,它运行成功。但是当我尝试以mapreduce模式运行时,它给了我错误。我使用以下命令运行我的程序,如http://pig.apache.org/docs/r0.9.1/cont.html#embed-java中所示javac-cppig.jarEmbedPigTest.javajavac-cppig.jar:.:/etc/hadoop/confEmbedPigTest.jav

hadoop - 亚马逊电子病历 : Initializing a cluster with data

我正在使用AmazonEMR,并且能够使用CLI工具创建和运行工作流。作业运行良好。但是,当我尝试将数据从S3和名称节点的本地文件系统加载到我的EMR集群的HDFS时遇到了问题。我想从S3填充HDFS。我正在尝试使用S3DistCp工具执行此操作。我正在运行这个命令:elastic-mapreduce--jobflow$JOBFLOWID--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.0.1/s3distcp.jar--arg--src--arg's3n://my-bucket/src'--arg--dest--arg'hdfs