草庐IT

hadoop - HDInsight Hive 在 ADD JAR 语句中找不到 SerDe jar

我已经将json-serde-1.1.9.2.jar上传到路径为“/lib/”的blob存储并添加了ADDJAR/lib/json-serde-1.1.9.2.jar但是我得到了/lib/json-serde-1.1.9.2.jardoesnotexist我在没有路径的情况下进行了尝试,并且还向ADDJAR语句提供了完整的url,结果相同。非常感谢对此的一些帮助,谢谢! 最佳答案 如果您不包含该方案,那么Hive将在本地文件系统上查找(您可以查看thesource的第768行附近的代码)当您包含URI时,请确保使用完整形式:ADDJ

java - Hadoop Map Reduce 程序键值传递

我正在尝试学习hadoop。我从免费的大型数据集网站下载了以下文件。我把它简化为我的sample测试。这是小文件。"CAMIS","DBA","BORO","BUILDING","STREET","ZIPCODE","PHONE","CUISINECODE","INSPDATE","ACTION","VIOLCODE","SCORE","CURRENTGRADE","GRADEDATE","RECORDDATE""40280083","INTERCONTINENTALTHEBARCLAY","1","111","EAST48STREET","10017","2129063134","0

ubuntu - Hadoop 卡在 Ubuntu 14.04 上

我正在使用JAVASDK6在Ubuntu14.04上设置Hadoop0.20.2。我一直在按照http://arifn.web.id/blog/2010/07/29/running-hadoop-single-cluster.html上的说明进行操作。并且已经达到“格式化和运行Hadoop”。按照指示,我输入bin/hadoopnamenode-formatbin/hadoopstart-all.sh这似乎可行,我可以使用以下命令查看我的节点的状态bin/hadoopdfsadmin-report接下来,我停止所有节点bin/stop-all.sh此时,我得到一个错误,Hadoop停止

hadoop - Hive - 比较表之间的数据

我需要比较具有相同列的2个外部表(A和A')之间的数据,我实际上制作了一些sql脚本来执行此操作,但不够高效和健壮。有没有办法用UDAF或外部工具来做到这一点?这里有一个示例:表A+----+----+----+|C1|C2|C3|+----+----+----+|01|A|02||02|B|03||03|C|04|+----+----+----+表A'+----+----+----+|C1|C2|C3|+----+----+----+|01|B|02||02|B|03||04|D|04|+----+----+----+输出+------+------+------+------+--

hadoop - 如何使用 Phoenix 运行 sqlline?

当我尝试运行Phoenix的sqlline.pylocalhost命令时,我得到了WARNutil.DynamicClassLoader:Failedtoidentifythefsofdirhdfs://localhost:54310/hbase/lib,ignoredjava.io.IOException:NoFileSystemforscheme:hdfsatorg.apache.hadoop.fs.FileSystem.getFileSystemClass...没有其他事情发生。我也无法让Squirrel工作(当我点击“列出驱动程序”时它卡住了)。根据these说明,我已将pho

python - 可以在 Azure HDInsight 中使用 Hadoop Streaming API 运行 python 代码吗?

我看到您可以运行C#代码(http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-develop-deploy-streaming-jobs/。)并且可能是任何其他编译语言,因为该示例使用.exe文件。你能用python代码做同样的事情吗? 最佳答案 我在HDInsight上运行Pythonmapreduce时运气不佳。虽然Python存在于Windows集群上,但我在尝试将其用于流式mapreduce时收到管道错误。但是,今天宣布了Linux

hadoop - Gemfire XD 中的默认复制因子是多少?

我正在创建一些表,它显示复制因子为1。它是默认复制因子还是因为GemFireXD安装在伪分发环境中?我正在尝试这个查询来验证默认情况下表是否被复制。并且显示已复制selecttablename,datapolicyfromsys.systableswheretableschemaname='APP'; 最佳答案 在gemfireXD中,如果不指定分区,表将被复制到集群中的所有服务器。 关于hadoop-GemfireXD中的默认复制因子是多少?,我们在StackOverflow上找到一个

hadoop - Hive 索引无法重建 - DAG 由于顶点故障而失败

我在HDP2.2上使用Hive14,在Hive上建立索引时遇到问题。我可以创建一个索引。createINDEXix_keyONTABLEDbTest.Tbl_test(TEST_KEY)as'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'WITHDEFERREDREBUILD;之后我将数据加载到表中并建立索引。ALTERINDEXix_keyONDbTest.Tbl_testREBUILD;Hive构建了索引,它运行良好,性能得到提升。现在想重建索引,总是报错:INFO:SessionisalreadyopenI

hadoop - 即使 hbase 主服务器和区域服务器已启动并正在运行,也无法在 hbase 中执行 CRUD 操作

我正在尝试从ambari运行我的hbasemaster并且它已经启动....即使我使用JPS命令来查看master是否启动并且我可以看到它已经启动但是当我尝试时创建表或列表表时显示异常.....ERROR:org.apache.hadoop.hbase.ipc.ServerNotRunningYetException:Serverisnotrunningyetatorg.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:100)atorg.apache.hadoop.hbase.ipc.FifoRpcScheduler$1.r

hadoop - GROUP BY 语句 HiveQL

我是Hive的新手。我的问题是为什么我们需要在执行GROUPBY时使用collect_set(col)?从歌曲列表GROUPBY歌手中选择歌手,collect_set(song);;非常感谢任何帮助。提前致谢! 最佳答案 兄弟!!恰恰相反:)所有求和/聚合事物都需要分组依据。在您的查询中,当您尝试执行collect_set(col)时,您需要一个分组依据。所以在你的例子中,你试图将歌手演唱的所有歌曲归为一组。因此collect_set(songs)的分组依据 关于hadoop-GROUP