hadoop-annotations

Hadoop - 映射器输出能否超过 block 大小

我们将其中一个mapreduce作业的dfs.blocksize设置为512MB，这是一个maponly作业。但是，一些映射器输出超过512MB。例如:512.9MB。我相信，映射器block大小应该受到dfs.blocksize的限制。感谢任何输入。谢谢最佳答案 Ibelieve,themapperblocksizeshouldberestrainedbythedfs.blocksize.这不是真的。文件可以大于block大小。在这种情况下，它们只会跨越多个block。关于Hado

射器 Hadoop section block hdfs mapper

apache - Hadoop 全序分区

为什么在hadoop中进行totaltotalorder分区？。哪些场景需要进行全序划分？我的理解是在多个reducer之后，每个reducer结果都会被key排序。那么为什么我们需要进行总订单划分。如果您可以分享任何图形代表，那就太好了。例子？最佳答案总顺序分区将在所有reducer中按键对输出进行排序。这允许您组合多个reducer的输出并仍然获得排序的输出。下面的简单示例:没有总订单划分reducer1'soutput:(a,val_a)(m,val_m)(x,val_x)reducer2'soutput:(b,val_b

apache Hadoop val section reducer hadoop-partitioning

java - Hadoop MapReduce - 如何创建动态分区

如何使用javamapreduce创建动态分区，就像我们有按国家/地区列分组的sql。示例我有基于国家/地区的数据集，需要根据国家/地区(分区)分隔记录。我们不能限制国家。因为每天都会获得新的国家/地区数据。最佳答案您可以利用dynamicpartitioningfeatureofHive根据传入数据自动填充分区。下面的示例演示了根据国家/地区信息对原始数据进行自动分区。创建一个原始数据文件(country1.csv)，其中包含多个国家/地区的数据1,USA2,Canada3,USA4,Brazil5,Brazil6,USA7,

MapReduce Hadoop country strong code java hadoop-partitioning

windows - 为什么 Windows 上的 Hadoop 尝试连接 0.0.0.0 :10020 (unsuccessfully)?

我已经安装了Hadoop在Windowsaccordingtothisartile现在可以运行测试应用程序hadoop-mapreduce-examples-X.Y.Z.jar.不幸的是，当我开始全面应用时，它开始访问一些奇怪的地址0.0.0.0:10020.已将我的DFS配置更改为hdfs://0.0.0.0但这没有帮助。异常如下:[Thread-14]INFOorg.apache.crunch.hadoop.mapreduce.lib.jobcontrol.CrunchControlledJob-Jobstatusavailableat:http://lagrangian:8088

unsuccessfully windows java apache hadoop

hadoop - Presto 查询无法将数据插入 Hive

我正在尝试将数据插入配置单元。为此，我使用Presto。这是我的查询:insertintocard_transactions_part_buckpartition(tran_year,tran_month,tran_day)selecttran_id,tran_uid,tran_date,tran_category,tran_category_id,tran_type,tran_type_id,tran_ingress_ip_address,tran_ingress_api_name,tran_ingress_api_id,platform,platform_id,card_type,

hadoop Presto tran term cust hive hiveql

hadoop - hadoop job是如何运行在各个节点上的

我是Hadoop的新手，所以可能会问一些愚蠢的问题。假设我有3个Hadoop从节点，它们都有天气数据说Node-1有1900-1929年的天气数据；Node-2有1930-1959年的天气数据；Node-3有1960-1989年的天气数据；我有一个MapReduce作业来查找从1900年到1989年的更高温度。我的问题是:当我们提交mrjob时，Hadoop会自动在这三个节点上提交job吗？或者我们需要编写脚本来这样做。感谢您的耐心解答最佳答案 HDFS是一个分布式文件系统。因此，天气数据将自动分配给3个从节点。默认情况下，它将被

hadoop job section code 天气

Hadoop 生态系统 : Map Reduce needed for Pig/Hive

互联网上有很多hadoop生态系统图片，所以我很难理解这些工具是如何协同工作的。例如在附图中，为什么pig和hive是基于mapreduce的，而其他工具如spark或storm基于YARN？你能解释一下吗？谢谢!BRhaddopecosystem 最佳答案图片显示了MapReduce之上的Pig和Hive。这是因为MapReduce是Pig和Hive使用的分布式计算引擎。Pig和Hive查询作为MapReduce作业执行。使用Pig和Hive更容易，因为它们提供了更高级别的抽象来使用MapReduce。现在我们来看一下图中YAR

Hadoop Reduce code section MapReduce hive apache-pig

hadoop - 无法调试 HQL 脚本

所以我正在尝试创建一个HiveSchema来分析存储在hdfs中的json数据。我指的是thisblog用于创建Hive表，下面是我的Schema.hqlCREATEEXTERNALTABLEbase_tweets4(`id`BIGINT,created_atSTRING,`source`STRING,favoritedBOOLEAN,retweet_countINT,retweeted_statusSTRUCT>,`entities`STRUCT>,user_mentions:ARRAY>,hashtags:ARRAY>>,textSTRING,`user`STRUCT,in_rep

hadoop HQL STRING STRUCT name hive hiveql

hadoop - pig 转储不显示所有数字

我已经使用Pig将数据加载到Hadoop中，但是当我转储csv表时，看起来我的数据被除以一百万。原始CSV:statepopulationCalifornia39144818Texas27469114Florida20271272要加载的Pig代码:statePopFile=LOAD'hdfs:/home/ubuntu/final/gunData/statePops.csv'usingPigStorage(',');stateRec=FOREACHstatePopFileGENERATE$0ASstate,$1aspopulation;dumpstateRec;控制台的输出是这样的(C

hadoop pig section code pre apache-pig

hadoop - 无法使用 Hadoop 命令创建目录？

我一直在启动NameNode和DataNode，但是当我尝试使用HDFS命令创建目录(在任何地方)时，它不起作用。这是我的命令:./hdfsdfs-mkdir-p/usr/master/datas我还尝试更改我的路径格式:./hdfsdfs-mkdir-p"/usr/master/datas"但我得到了相同的结果。我刚刚开始学习大数据。谁能告诉我如何解决这个问题以及如何调试这个问题？最佳答案 /usr在HDFS上不存在。那是一个Unix目录。HDFS中的用户目录是/user。此外，您需要成为HDFSsuper用户才能在根路径下创建

hadoop section code HDFS

75 76 777879 80 81