草庐IT

apache-karaf

全部标签

sql - 如何正确格式化 "select top 1000 * from schema.table_name;"以在 Toad 4 Apache Hadoop 中工作?

尝试在Toad4ApacheHadoop(Hive)中运行它,它无法识别top函数。我该如何重新格式化?selecttop1000*fromFinance.ACCT_LIST 最佳答案 您可以使用LIMIT:select*fromFinance.ACCT_LISTorderbysomecolumnlimit1000如果你想得到一组一致的行,你应该添加一个orderby子句。 关于sql-如何正确格式化"selecttop1000*fromschema.table_name;"以在Toad

hadoop - 在 Hive 中找不到 java.lang.ClassNotFoundException : Class org. apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe

我正在尝试在配置单元中处理多字符分隔符。我已经成功创建了一个相同的表createexternaltableshowtmp3(doc_nameSTRING,doc_contentSTRING)rowformatSERDE'org.apache.hadoop.hive.serde2.MultiDelimitSerDe'WITHSERDEPROPERTIES('field.delim'='#a#')location'/unmesha/OUT';然后我需要发出如下查询。INSERTOVERWRITEDIRECTORY'/unmesha/OUT_tmpShowData'SELECT*showtm

hadoop - Apache Ranger - 读取与执行访问之间的区别(对于 Hive 表)

上下文-使用ApacheRanger管理安全性的Hive表。问题-在Ranger中设置读取/写入/执行权限时,如果用户具有“读取”访问权限,他们可以运行选择查询吗?SELECT*FROMMyTable“HiveQL”查询何时需要执行权限? 最佳答案 我认为这可能会有所帮助:那里提到了不同的访问标准:https://cwiki.apache.org/confluence/display/Hive/SQL+Standard+Based+Hive+Authorization#SQLStandardBasedHiveAuthorizatio

hadoop - Apache 麒麟 : Cube build failed at step 3

我正在尝试构建ApacheKylin多维数据集,但在第3步失败并显示以下日志消息:java.lang.RuntimeException:java.io.IOException:NoSuchObjectException(message:default.kylin_intermediate_t3cube_47ec8760_55ce_445d_a91b_0c33957690bftablenotfound)atorg.apache.kylin.source.hive.HiveMRInput$HiveTableInputFormat.configureJob(HiveMRInput.java:

hadoop - 这是正确的 apache spark 使用场景吗?

我曾经是一名sql和c#开发人员,并且刚刚进入spark和hadoop世界。这是我日常工作的场景:我们有一些包含股票和基金价格数据的巨型表格。要获得有关股票或基金的表现或统计数据,我们必须检索每种工具的历史数据并进行数学计算。我们在c#中以多线程方式进行计算(即在我们的c#代码中,我们创建多个线程来从数据库加载数据并进行计算)。由于我对spark和Hadoop的经验极其有限,如果我们从c#迁移到spark,我的感受是:我需要将所有计算转换为python。我需要将SQL数据加载到HadoopSpark将负责运行我的函数,我不再需要编写多线程代码。Spark在内存中加载数据并进行并行计算,

hadoop - Apache Pig 等效于 Select *

我正在尝试通过Pig获取数据。文件中有>8K个字段,我想选择每列的前10条记录:目前,我只是加载整个表并拼出变量名,是否有等效于SQL的从TABLELIMIT10中选择*;在pig身上?当前负载data=load'xsf://EXAMPLE/1'usingSomePigLoader('2017-01-01','2017-01-03','ID1,ID2,ID3....') 最佳答案 是的。加载后使用LIMIT关于关系data=load'xsf://EXAMPLE/1'usingSomePigLoader('2017-01-01','2

hadoop - 在 Apache Nifi 上运行多个 hive sql

我有一个ApacheNifi1.2工作流,它从hdfs进程中读取一些东西并将信息写入历史表。之后我想运行3个配置单元查询以基于历史表创建一个新表。为什么在Nifi上做起来这么难?我没有找到任何使用putSQL或SelectHiveQL的简单方法。我不想使用ExecuteStreamedCommand,因为我想保留nifi库。有什么帮助吗?谢谢 最佳答案 使用包含您要运行的第一个hql的GenerateFlowFile。将它连接到PutHiveQL,后者连接到ReplaceText。在ReplaceText中,用第二个hql替换现有内

apache - 超出内存限制 - Apache Impala

Screenshotofmymemorystatus您好,当我尝试运行TPCDS-Benchmark查询时遇到错误片段超出内存限制:9944e21b4d6634c0:1HDFS_SCAN_NODE(id=2)无法在不超过限制的情况下分配1.95KB。进程:超出内存限制。限制=256.00MB总计=286.62MB峰值=380.11MB我的电脑有10GB的内存。然而,impala似乎只分配了256MB。我曾尝试使用mem_limit命令增加启动时的内存限制,但它不起作用。 最佳答案 我能够通过ClouderaManager解决我的问题

json - java.lang.ClassCastException : org. apache.hadoop.hive.ql.io.orc.OrcStruct 无法转换为 org.apache.hadoop.io.Text。 json serde 错误

我不熟悉在配置单元上处理json数据。我正在开发一个获取json数据并将其存储到配置单元表中的spark应用程序。我有一个这样的json:展开后是这样的:我能够将json读入数据帧并将其保存在HDFS上的某个位置。但是让Hive能够读取数据是困难的部分。例如,在我在线搜索之后,我尝试这样做:对所有json字段使用STRUCT,然后使用column.element访问元素。例如:web_app_security将是表内的列(STRUCT类型)的名称以及其中的其他json,如config_web_cms_authentication、web_threat_intel_alert_exter

hadoop - Apache Nifi 和 OPC 集成问题(GetValue 处理器)

我已经集成了NIFIOPCUA[https://github.com/wadesalazar/NIFI-OPCUA]处理器与ApacheNifi1.3。我正在关注这个URL[https://community.hortonworks.com/articles/90355/collect-data-from-opc-ua-protocol.html]开始。我已经在Windows上安装了来自prosysopcua的模拟OPC服务器。我能够从NIFI上的GetNodeIDs处理器中提取消息,splitText处理器用于逐行读取消息并发送到GetValue处理器,如示例所示,但我的GetVal