草庐IT

master-data-management

全部标签

performance - Tableau 受限 Data Extract 连接速度慢

我在Tableau中设计可视化,我的数据在Hive/hadoop中,数据量很大,当我尝试设计可视化时,查询运行非常非常慢,因为每次它尝试从hadoop中提取数据。所以对于任何可视化,简单的拖放通常需要4分钟,而可视化可能需要10秒的拖放,所以我最终要花很多时间等待。我尝试使用数据提取选项,但是它永远需要数据提取(38分钟并且仍在继续)问题:有没有办法我只能提取1000条记录,这样我就可以处理这1000条记录来创建可视化,然后在设计完成后切换到实时连接。我试图查看画面社区的帮助,但到目前为止没有运气 最佳答案 复制XL中的所有数据并将

hadoop - Hadoop 2.x 系列是否弃用了 `dfs.data.dir` 属性?

dfs.data.dir属性在2.x系列中是否仍然有效?从这个hdfs-site.xmldocumentation大概版本1.2.1和这个hdfs-site.xmldocumentation是什么对于大概2.4.1来说,很明显dfs.data.dir已被弃用。我的推断是真的吗?如果是这样,现在它的等价物是什么?在生产中更改hadoop.tmp.dir并保留它? 最佳答案 请查看此链接Deprecatedproperty,由于该属性被标记为已弃用,您仍然可以利用该属性的功能行为。最好使用Deprecated属性。

hadoop - 将数据从 Hadoop(本地)加载到 Azure Data Lake 的不同方法

我需要每8小时将数据从Hadoop(这是本地Hortonworks集群)加载到AzureDataLake。你能告诉我——在实现解决方案时可以尝试哪些不同的方法吗?ADF[我们可以创建管道事件并安排它们]还要别的吗?谢谢,亚拉汶 最佳答案 我们在thislink提供了高级选项.搜索:“存储在本地或IaaSHadoop集群中的数据”。但是,需要根据以下方面进行微调:1.您要移动多少数据、文件数量、文件大小等。较小的文件将需要更长的时间来传输。2.从本地到Azure的网络连接如果您有ExpressRoute可用,您将获得更好的体验。如果您

hadoop - SAP 沃拉 : Not able to add Vora table as Virtual table via Smart Data Access in HANA Studio

我正在使用带有HANAExpress2SP01的虚拟机。在一个小型测试集群上,我安装了HortonworksDataPlatform2.6和Spark1.6.3,还添加了HANAVora1.4和SparkController2.1。我遵循了SAPVora安装和管理指南:https://help.sap.com/http.svc/rc/f09ec811fe634f588647c342cac84c38/1.4/en-US/SAP_Vora_Installation_Admin_Guide_1.4_en.pdf直到第2.9章。一切正常,但Zeppelin部分与%jdbc解释器:%jdbcse

Spring Boot Data JPA - 修改更新查询 - 刷新持久性上下文

我正在使用SpringBoot1.3.0.M4和MySQL数据库。我在使用修改查询时遇到问题,EntityManager在查询执行后包含过时的实体。原始JPA存储库:publicinterfaceEmailRepositoryextendsJpaRepository{@Transactional@Modifying@Query("updateEmailesete.active=falsewheree.active=trueande.expire假设我们在数据库中有电子邮件[id=1,active=true,expire=2015/01/01]。执行后:emailRepository.s

Spring Boot Data JPA - 修改更新查询 - 刷新持久性上下文

我正在使用SpringBoot1.3.0.M4和MySQL数据库。我在使用修改查询时遇到问题,EntityManager在查询执行后包含过时的实体。原始JPA存储库:publicinterfaceEmailRepositoryextendsJpaRepository{@Transactional@Modifying@Query("updateEmailesete.active=falsewheree.active=trueande.expire假设我们在数据库中有电子邮件[id=1,active=true,expire=2015/01/01]。执行后:emailRepository.s

hadoop - Q : how to unnest bags from complicated data structure in PIG

原来我有这样的结构:+-------+-------+----+----+----+-----+|time|type|s1|s2|id|p1|+-------+-------+----+----+----+-----+|10:30|send|a|b|1|110||10:35|send|c|d|1|120||10:31|reply|e|f|3|221||10:33|reply|a|c|1|210||10:34|send|a|a|3|113||10:32|reply|c|d|3|157|+-------+-------+----+----+----+-----+我想规范化表格:按id对条目

hadoop - 来自 ambari 的 Data-node Alive 不稳定

我们有ambari集群版本-2.6.1和hadoop版本2.6.4数据节点的数量是-10从ambari仪表板我们可以看到显示以下内容的窗口:DataNodesLive9/10但几分钟后所有数据节点都还活着:DataNodesLive10/10几分钟后我们又见面了DataNodesLive9/10似乎namenode已经超过interval没有收到来自datanode的心跳消息,然后datanode将被标记为“已死”我们检查以下内容:主机解析-OK(DNSOK)IP的解析是-好的(DNS是好的)HDFS服务校验成功每个数据节点都已启动(ps-ef|grepdatanode|grep-vg

hadoop - Hadoop的master节点需要安装Mahout吗?

这是个愚蠢的问题,但总得有人问。我试过在本地运行Mahout,效果很好。现在,我希望工作由远程集群执行,而不是我的本地机器。那么,我应该在Hadoop机器上部署Mahout代码,还是我仍然可以使用Hadoop在我的本地机器接口(interface)上远程制作Mahout? 最佳答案 不,您不会自己在Hadoopworker上安装Hadoop程序。那将是一场噩梦。当您通过hadoopjar向它提供包含所有代码的JAR文件时,Hadoop会为您完成。当您运行Mahout或任何其他基于Hadoop的东西时,在您的本地计算机上运行的是一个客

java - Cloudera Manager 4.0 字数统计示例

我安装了ClouderaManager并将2个节点连接到一个主节点。我正在尝试使用cloudera在此链接提供的教程运行wordcount程序:https://ccp.cloudera.com/display/SUPPORT/Hadoop+Tutorial#HadoopTutorial-InputsandOutputsCloudera说要编译我在命令提示符下使用nano创建的WordCount.java文件。我创建了目录Wordcount_Classes并将wordcount.java文件放在那里。我不知道是否应该将该目录移动到cloudera目录之一的某个位置以使java代码工作?或