草庐IT

AZURE_DATABASE

全部标签

database - 凤凰加入操作不适用于 hbase

我正在使用hbase-1.1.0.1和phoenix-4.4.0-HBase-1.1-bin版本。要运行SQL查询,我使用SQuirrelSQL客户端。Select*、Selectcount(*)、whereclause和子查询等简单查询工作正常,但JOIN操作根本不起作用。请帮我解决这个问题。 最佳答案 我找到了解决方案。实际上我犯了一个错误,我将“phoenix-core-4.4.0-HBase-1.1.jar”复制到我的hbase的lib目录中。当我用“phoenix-4.4.0-HBase-1.1-server.jar”替换

azure - Hadoop 与 MSSQL 报告的可能性

我一直在azureHDInsight上评估Hadoop,以便为我们的报告应用程序找到大数据解决方案。此技术评估的关键部分是我需要与MSSQLReportingServices集成,因为这是我们的应用程序已经使用的。我们的开发人员资源非常短缺,所以我越能将其纳入工程实践中越好。到目前为止我尝试了什么使用从MSSQL映射到HDInsight上的Hive的ODBC连接。在HDInsight上使用HBASE从MSSQL使用ODBC连接。在AzureHDInsight远程桌面上本地使用SPARKQL我发现HBASE和Hive在我们的报告中使用起来要慢得多。对于测试数据,我使用了一个60k行的表,

azure - 如何从 Hadoop 中的 Azure Blob 存储读取数据?

我有一个map-reduce作业,reducer获取驻留在AzureBlob存储上的文件的绝对地址,reducer应该打开它并读取其内容。我在配置Hadoop集群(HDInsight)时添加了包含文件的存储帐户。因此,reducer必须有权访问此Blob存储,但因为Blob存储不是我工作的默认HDFS存储。我的reducer中有以下代码,但它给了我一个FileNotFound错误消息。FileSystemfs=FileSystem.get(newConfiguration());Pathpt=newPath("wasb://mycontainer@accountname...");FS

azure - 如何从 C# 中自动化 Azure Spark?

我可以创建集群,但我该如何自动执行脚本?varclusterInfo=newClusterCreateParametersV2{Name=clusterConfig.ClusterName,...ClusterType=ClusterType.Spark};`cluster.RunScript()?我可以获得SparkContext吗?https://azure.microsoft.com/en-us/documentation/articles/hdinsight-apache-spark-use-bi-tools/ 最佳答案 今

azure - Pig 无法在 HDFS (riskfactor.pig) 中创建(或查找)pigjobs 文件

我在Azure上使用HortonWorks沙箱,并且正在研究Hadoop入门教程“实验室3-pig风险因素分析”。http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/#section_5在执行完所有步骤之后,运行这个pig脚本:a=LOAD'geolocation'usingorg.apache.hive.hcatalog.pig.HCatLoader();b=filterabyevent!='normal';c=foreachbgenera

azure - 将日期转换为星期日期名称和一天的一部分

那么我如何使用以下输入从pig那里得到这个输出。我应该使用哪些命令输入:10/3/2013120010/4/20130000预期输出:MondayMorningTuesdayEvening 最佳答案 将字段拆分为2个字段,然后使用ToDate获取当天的名称。对于晚上和早上,您可以检查值并分配。假设您与1个字段有关系B=FOREACHAGENERATESTRSPLIT((chararray)A.$0,'',2);C=FOREACHBGENERATEToString(ToDate(B.$0,'MM/dd/yyyy'),'E'),(CAS

azure - 如何为 Premium HDInsight 创建反向 DNS 查找区域?

我已经在Azure中创建了一个DNS区域。例如,对于IP范围192.0.2.128/26,我创建了128-26.2.0.192.in-addr.arpa。现在我应该如何为要创建的Hdinsight虚拟机创建PTR记录? 最佳答案 当为具有192.0.2.128/26前缀中的IP的主机创建反向区域以托管记录时,区域名称将通过隔离地址的网络前缀(192.0.2)然后反转顺序来创建(2.0.192)并添加后缀.in-addr.arpa。 关于azure-如何为PremiumHDInsight创

Azure 上的 Node.js 和 HBase (HDInsight)

我正在尝试从Node.js访问MicrosoftAzure上的HBase。我查看了不同的库,例如hbase和RESTAPI(webhcat)。我想要实现的是创建一个表并从Node.js上传数据。稍后我想对该数据集进行查询。不幸的是,Azure的文档在这方面没有太大帮助,因为它侧重于PowerShell和.NETSDK。我发现的一篇非常有用的文章是:http://blogs.msdn.com/b/bigdatasupport/archive/2014/04/22/querying-hdinsight-job-status-with-webhcat-via-native-powershel

database - RDBMS 时间戳与 Hive 时间戳时区不匹配

如果我查询RDBMS以获取我收到的时间戳:2015-03-3000:00:00在我将它作为bigint列导出到Hive表后,我得到1427673600000(cast(tsastimestamp)gives2015-03-3002:00:00)。即当前本地时区(带夏令时)已应用于时间戳。如果我想与数据库中的内容保持一致,如何将导出的时间戳存储在Hive中?我是否需要始终将时间戳存储为Hive中的UTC格式,所以在这种情况下,我需要从我得到的时间中减去2小时然后我必须在查询期间应用当前时区(使用from_utc_timestamp)?如何考虑夏令时(GMT+1和GMT+2)?什么是最佳实

database - Spark 中的快速条件加入

我正在尝试使用条件查询在Spark中进行快速扩充。我有两个键/值数据集:“事件数据”和“session映射”。“session映射”用于找出谁在两个时间戳之间使用给定的IP。“事件数据”是大量事件的集合,具有IP和时间戳,需要与“session映射”相关联以丰富用户名。是否有一种有效的方法可以根据Spark中的session映射或其他方式丰富事件数据?sessionmap:(IP,start_time,end_time)->Name(192.168.0.l,2016-01-0110:00:00,2016-01-0122:00:00)->John(192.168.0.l,2016-01-