hadoop-examples

hadoop - Gemfire XD 中的默认复制因子是多少？

我正在创建一些表，它显示复制因子为1。它是默认复制因子还是因为GemFireXD安装在伪分发环境中？我正在尝试这个查询来验证默认情况下表是否被复制。并且显示已复制selecttablename,datapolicyfromsys.systableswheretableschemaname='APP'; 最佳答案在gemfireXD中，如果不指定分区，表将被复制到集群中的所有服务器。关于hadoop-GemfireXD中的默认复制因子是多少？，我们在StackOverflow上找到一个

hadoop - Hive 索引无法重建 - DAG 由于顶点故障而失败

我在HDP2.2上使用Hive14，在Hive上建立索引时遇到问题。我可以创建一个索引。createINDEXix_keyONTABLEDbTest.Tbl_test(TEST_KEY)as'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'WITHDEFERREDREBUILD;之后我将数据加载到表中并建立索引。ALTERINDEXix_keyONDbTest.Tbl_testREBUILD;Hive构建了索引，它运行良好，性能得到提升。现在想重建索引，总是报错:INFO:SessionisalreadyopenI

hadoop Hive RootInputInitializerManager java apache indexing hiveql hortonworks-data-platform

hadoop - 即使 hbase 主服务器和区域服务器已启动并正在运行，也无法在 hbase 中执行 CRUD 操作

我正在尝试从ambari运行我的hbasemaster并且它已经启动....即使我使用JPS命令来查看master是否启动并且我可以看到它已经启动但是当我尝试时创建表或列表表时显示异常.....ERROR:org.apache.hadoop.hbase.ipc.ServerNotRunningYetException:Serverisnotrunningyetatorg.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:100)atorg.apache.hadoop.hbase.ipc.FifoRpcScheduler$1.r

hbase 即使 property gt lt hadoop

hadoop - GROUP BY 语句 HiveQL

我是Hive的新手。我的问题是为什么我们需要在执行GROUPBY时使用collect_set(col)？从歌曲列表GROUPBY歌手中选择歌手，collect_set(song);;非常感谢任何帮助。提前致谢! 最佳答案兄弟!!恰恰相反:)所有求和/聚合事物都需要分组依据。在您的查询中，当您尝试执行collect_set(col)时，您需要一个分组依据。所以在你的例子中，你试图将歌手演唱的所有歌曲归为一组。因此collect_set(songs)的分组依据关于hadoop-GROUP

hadoop HiveQL section collect_set collect hive

xml - 在 Hadoop 中创建许多小的 XML 文件

我在Hadoop中有一个大型数据集，其中包含许多不同客户的数据。在此数据集中，每个客户都可以有许多订单商品，每天的订单数量从几百到几百万不等。数据集有大约50,000个客户。我需要做的是为每个客户创建一份每日XML报告，其中每个客户的数据都在其自己的文件中。这意味着一些文件会很小，但其他文件会很大(XML表示非常冗长并且有很多字段)。编写MapReduce代码来生成XML是微不足道的，我解决这个问题的第一个方法是使用HadoopMultipleOutputs在reducer中为每个客户编写一个文件。虽然这可行，但所有这些小文件都会给Namenode带来很大压力。此外，我需要将所有这些文

中创许多 MapFile section Hadoop xml

hadoop - Pig 中的 SUM、AVG 不起作用

我在pig中使用以下代码分析集群用户日志文件:t_data=load'log_flies/*'usingPigStorage(',');A=foreacht_datagenerate$0as(jobid:int),$1as(indexid:int),$2as(clusterid:int),$6as(user:chararray),$7as(stat:chararray),$13as(queue:chararray),$32as(projectName:chararray),$52as(cpu_used:float),$55as(efficiency:float),$59as(numTh

hadoop Pig section strong code mapreduce apache-pig

hadoop - 任何人都可以澄清 HIVE 0.14 上的查询吗

我们在我们的应用程序中使用Hive0.14，当执行引擎在MR中时，我们能够更新ORC表，当我们设置执行引擎有TEZ并执行插入/更新/删除时，它会抛出异常“”异常:org.apache.hadoop.hive.ql.lockmgr.LockException:与Metastore通信时出错杀死DAG...java.io.IOException:org.apache.hadoop.hive.ql.lockmgr.LockException:与Metastore通信时出错在org.apache.hadoop.hive.ql.exec.Heartbeater.heartbeat(Heartbe

澄清任何人 section 时出 strong hadoop hive azure-hdinsight

hadoop - MapReduce 从任务中的类路径读取文件

我在我的fatjar中捆绑了一个文件“xxx.txt.gz”我需要在每个MapTask中的每个YARN容器中引用这个文件。所以如果你看看我的jar里面:你会看到xxx.txt.gz*我正在尝试通过访问这个文件FilemappingFile=newFile(getClass().getClassLoader().getResource("xxx.txt.gz").getFile())但是，在运行时，我从所有任务尝试的日志中收到以下错误java.io.FileNotFoundException:file:/local/hadoop/1/yarn/local/usercache/USER/a

MapReduce hadoop section code classpath hadoop-yarn

hadoop - pig 加载多个顺序文件

假设一个目录下有多个文件，如果一个把目录传给PigLoadA=LOAD'/SomeDir/'它将一次加载所有文件(我想以任何顺序......我不确定)。但是考虑文件名是否是动态的并且也是按顺序排列的，例如根据日期，如何按该顺序调用Pig加载？或者unixlistdirectory命令可以使用ls吗？/SomeDir$ls20150101.csv20150102.csv20150104.csv.......#Pigloadfilesatoncewhilekeepingtheorder 最佳答案 PigLOAD语句用于从指定位置读取输入

hadoop pig code section strong apache-pig

file - 我可以在 hdfs (hadoop) 中复制数据吗

我是hadoop的新手(v2.6.0)我在我的论文中使用hadoop(Linux)中的遗传算法。我的问题:1:我想在所有从机的hdfs位置复制文件输入(文本)(不分区文件)例如，我有一个文件(200Mb)，我想将所有文件发送给从属设备。(从属设备1为200，从属设备2为200...等等)这可能吗？如果可能的话，这样做的关键是什么？2:第二个问题:我有2个slaves和1个master...当我启动时，我的程序是否默认在所有slaves中执行？或者hadoop决定哪个slave将执行程序？如果hadoop决定我如何让我的程序在所有slaves中无一异常(exception)地可执行？我希

hadoop file noreferrer noopener nofollow mapreduce hdfs replication

30 31 323334 35 36