HADOOP_PREFIX

java - Hadoop MapReduce - 如何创建动态分区

如何使用javamapreduce创建动态分区，就像我们有按国家/地区列分组的sql。示例我有基于国家/地区的数据集，需要根据国家/地区(分区)分隔记录。我们不能限制国家。因为每天都会获得新的国家/地区数据。最佳答案您可以利用dynamicpartitioningfeatureofHive根据传入数据自动填充分区。下面的示例演示了根据国家/地区信息对原始数据进行自动分区。创建一个原始数据文件(country1.csv)，其中包含多个国家/地区的数据1,USA2,Canada3,USA4,Brazil5,Brazil6,USA7,

windows - 为什么 Windows 上的 Hadoop 尝试连接 0.0.0.0 :10020 (unsuccessfully)?

我已经安装了Hadoop在Windowsaccordingtothisartile现在可以运行测试应用程序hadoop-mapreduce-examples-X.Y.Z.jar.不幸的是，当我开始全面应用时，它开始访问一些奇怪的地址0.0.0.0:10020.已将我的DFS配置更改为hdfs://0.0.0.0但这没有帮助。异常如下:[Thread-14]INFOorg.apache.crunch.hadoop.mapreduce.lib.jobcontrol.CrunchControlledJob-Jobstatusavailableat:http://lagrangian:8088

unsuccessfully windows java apache hadoop

hadoop - Presto 查询无法将数据插入 Hive

我正在尝试将数据插入配置单元。为此，我使用Presto。这是我的查询:insertintocard_transactions_part_buckpartition(tran_year,tran_month,tran_day)selecttran_id,tran_uid,tran_date,tran_category,tran_category_id,tran_type,tran_type_id,tran_ingress_ip_address,tran_ingress_api_name,tran_ingress_api_id,platform,platform_id,card_type,

hadoop Presto tran term cust hive hiveql

hadoop - hadoop job是如何运行在各个节点上的

我是Hadoop的新手，所以可能会问一些愚蠢的问题。假设我有3个Hadoop从节点，它们都有天气数据说Node-1有1900-1929年的天气数据；Node-2有1930-1959年的天气数据；Node-3有1960-1989年的天气数据；我有一个MapReduce作业来查找从1900年到1989年的更高温度。我的问题是:当我们提交mrjob时，Hadoop会自动在这三个节点上提交job吗？或者我们需要编写脚本来这样做。感谢您的耐心解答最佳答案 HDFS是一个分布式文件系统。因此，天气数据将自动分配给3个从节点。默认情况下，它将被

hadoop job section code 天气

Hadoop 生态系统 : Map Reduce needed for Pig/Hive

互联网上有很多hadoop生态系统图片，所以我很难理解这些工具是如何协同工作的。例如在附图中，为什么pig和hive是基于mapreduce的，而其他工具如spark或storm基于YARN？你能解释一下吗？谢谢!BRhaddopecosystem 最佳答案图片显示了MapReduce之上的Pig和Hive。这是因为MapReduce是Pig和Hive使用的分布式计算引擎。Pig和Hive查询作为MapReduce作业执行。使用Pig和Hive更容易，因为它们提供了更高级别的抽象来使用MapReduce。现在我们来看一下图中YAR

Hadoop Reduce code section MapReduce hive apache-pig

hadoop - 无法调试 HQL 脚本

所以我正在尝试创建一个HiveSchema来分析存储在hdfs中的json数据。我指的是thisblog用于创建Hive表，下面是我的Schema.hqlCREATEEXTERNALTABLEbase_tweets4(`id`BIGINT,created_atSTRING,`source`STRING,favoritedBOOLEAN,retweet_countINT,retweeted_statusSTRUCT>,`entities`STRUCT>,user_mentions:ARRAY>,hashtags:ARRAY>>,textSTRING,`user`STRUCT,in_rep

hadoop HQL STRING STRUCT name hive hiveql

hadoop - pig 转储不显示所有数字

我已经使用Pig将数据加载到Hadoop中，但是当我转储csv表时，看起来我的数据被除以一百万。原始CSV:statepopulationCalifornia39144818Texas27469114Florida20271272要加载的Pig代码:statePopFile=LOAD'hdfs:/home/ubuntu/final/gunData/statePops.csv'usingPigStorage(',');stateRec=FOREACHstatePopFileGENERATE$0ASstate,$1aspopulation;dumpstateRec;控制台的输出是这样的(C

hadoop pig section code pre apache-pig

hadoop - 无法使用 Hadoop 命令创建目录？

我一直在启动NameNode和DataNode，但是当我尝试使用HDFS命令创建目录(在任何地方)时，它不起作用。这是我的命令:./hdfsdfs-mkdir-p/usr/master/datas我还尝试更改我的路径格式:./hdfsdfs-mkdir-p"/usr/master/datas"但我得到了相同的结果。我刚刚开始学习大数据。谁能告诉我如何解决这个问题以及如何调试这个问题？最佳答案 /usr在HDFS上不存在。那是一个Unix目录。HDFS中的用户目录是/user。此外，您需要成为HDFSsuper用户才能在根路径下创建

hadoop section code HDFS

hadoop - Hive 分区表的记录数

我在Hive中有一个名为“transaction”的表，该表分区在一个名为“DS”的列上，该列将包含类似“2018-05-05”的数据，“2018-05-09”、“2018-05-10”等此表是在完成当天的一夜之间填充的。在任何时候，该表都会有前一天的数据当我像这样查询交易表时SELECTCOUNT(*)FROMtrasactionWHEREDS>="currentdate";我明白了0行-这是正确的，因为尚未加载当前和future日期的数据当我运行以下查询时SELECTDISTINCTDSFROMtrasactionWHEREDS>="currentdate";我明白了2018-05

hadoop Hive 2018 section strong bigdata hadoop-partitioning

hadoop - HDFS 名称节点高可用性

我使用ambari启用了Namenode高可用性。我想在开始编码之前使用dfs.nameservices(名称服务ID)验证连接。是否有任何命令行或工具可以验证它？最佳答案您可以使用普通的HDFSCLI。hdfsdfs-lshdfs://nameservice/user这也应该和一样工作hdfsdfs-lshdfs:///user或者提供你的事件名称节点hdfsdfs-lshdfs://namenode-1:port/user如果你提供standbynamenode，它会说operationREADnotsupportedins

hadoop HDFS section code high-availability

71 72 737475 76 77