草庐IT

datastax-enterprise-graph

全部标签

hadoop - PIG 和 HIVE 连接到运行大量 map 的 Datastax Cassandra

我正在使用DSE3.2.4我创建了三个表,其中一个表有1000万行,另一个表有50k行,其他表只有10行当我对这些表运行一个简单的PIG或Hive查询时,它会为这两个表运行相同数量的映射器。在Pig中,默认情况下pig.splitCombination是true其中它只运行一个map如果我将其设置为false,它现在运行513张map。在Hive中默认运行513个映射我尝试设置以下属性mapred.min.split.size=134217728in`mapred-site.xml`nowrunning513mapsforall在pigshell中设置pig.splitCombinat

hadoop - datastax cassandra 设置指南

想知道是否有任何设置指南可用于DatastaxCassandra的容量规划。如果有任何真实世界的用例可用于硬件和软件要求,以利用具有DR和故障转移设置的完整Datastax堆栈,带宽要求将更有用。我在Datstax文档中找到了建议,但想知道这是否足够。 最佳答案 在您的系统上尝试Cassandra压力测试,您可以根据输出计算硬件要求。单节点输出示例:CassandraPerformanceon1NodeClusterWriteoperation:Results:oprate:6636partitionrate:6636rowrate

graph - 以hadoop为数据源创建图的常用工具有哪些

我想知道人们在需要从大数据源(如hadoop)生成图表时使用什么工具?我听说过Graphite,但它似乎更像是一种实时图形工具,而这并不是我真正想要的。现在,我主要关心的是使用大文件创建图形,其中数据来自pig脚本。顺便说一句,我试过使用excel,但除了对测试结果不完全满意外,我担心如果我有一个真的大数据源,一个excel表可能还不够。提前致谢! 最佳答案 如果您不介意命令行,Gnuplot会很棒。 关于graph-以hadoop为数据源创建图的常用工具有哪些,我们在StackOver

graph - 关于来自 Graphlabs : community detection example 的 Graphchi

如果有人知道Graphchi并试图理解communitydetection.cpp代码,我需要帮助来逐步理解这段代码的作用:for(inti=0;iget_data();vid_tnblabel=neighbor_label(edgelabel,vertex.id(),vertex.edge(i)->vertex_id());std::map::iteratorexisting=counts.find(nblabel);intnewcount=0;if(existing==counts.end()){counts.insert(std::pair(nblabel,1));newcoun

hadoop - Datastax hadoop 节点基础知识

我正在尝试在我的datastax企业集群中设置一些hadoop节点和一些cassandra节点。在这一点上,有两件事我不清楚。一,我需要多少个hadoop节点?它是相同数量的Cassandra节点吗?数据是否仍然存在于cassandra节点上?其次——教程提到我应该在hadoop节点上禁用vnode。我仍然可以在该集群中的cassandra节点上使用vnodes吗?谢谢你。 最佳答案 在DatastaxEnterprise中,您在同时运行Cassandra的节点上运行Hadoop。最常见的部署是建立两个数据中心(节点的逻辑分组)。一

hadoop - 基于 Apache Atlas 和 Hive,元数据存储在哪里?在 Titan Graph Repository 中还是在 RDBMS with Hive 中?

我已经安装了Atlas、Hive和Hadoop并正确配置了它们。但是我想知道导入元数据后元数据存储在哪里?根据Atlas的一些文档,它说元数据将存储在Titan图形存储库中。然而,根据Hive的一些文档,它表明元数据将存储在RDBMS中,例如MySql。如果我同时安装Atlas和Hive,元数据将具体存储在哪里? 最佳答案 虽然现有答案并没有错,但我认为最好指出提问者似乎混淆了两种元数据。Hive元数据:这确实存储在关系数据库中,默认使用MySQLAtlas元数据:这存储在HBase中(旧版本的Titan由Hbase支持?)Hive

hadoop - 在 hadoop-gremlin 中使用 OneTimeBulkLoader 的 janusgraph 引发 "Graph does not support adding vertices"

我的目标:使用SparkGraphComputer将本地数据bulkLoader到janusgraph,然后在hbase和ES上构建混合索引我的问题:Causedby:java.lang.UnsupportedOperationException:Graphdoesnotsupportaddingverticesatorg.apache.tinkerpop.gremlin.structure.Graph$Exceptions.vertexAdditionsNotSupported(Graph.java:1133)atorg.apache.tinkerpop.gremlin.hadoop

hadoop - Datastax Enterprise 3.2 配置单元超时异常

我尝试通过DatastaxEnterprise运行简单的配置单元查询,但它总是因超时而失败(在小数据集甚至空表上)。我在AWS上有4个m1.large节点(2xCassandra&2xAnalytics)。见下文:cqlsh:intracker>selectcount(*)fromevent_tracks_by_browser_dateLIMIT100000;count-------15030然后用hive:hive>select*fromevent_tracks_by_browser_datewheretype_id=10;TotalMapReducejobs=1LaunchingJ

hadoop - Spark : Export graph data to anything (Hive, 文本等)

我有一个以这种方式创建的星图valgraph=Graph(vertices,edges,defaultArticle).cache我的顶点是RDD[(Long,(String,Option[String],List[String],Option[String])]我的边是RDD[Edge[长]]如何将此图形/边/顶点保存到Hive/文本文件/其他任何内容,以及如何读回它?我查看了SparkSQL文档和Spark核心文档,但我仍然没有成功。如果我执行saveAsTextFile(),那么当我读回它时,它是一个RDD[String],这不是我需要的....编辑:Daniel提供了另存为对象

bash - Docker 上的 DataStax Enterprise : fails to start due to/hadoop/conf directory not being writable

我关注了DataStax'sguideonbestpracticesforusingDSEwithDocker,但我在使用DataStax提供的所有默认设置脚本和Dockerfile时遇到了以下错误。错误日志Causedby:java.lang.RuntimeException:FailedtosavecustomDSEHadoopconfigatcom.datastax.bdp.hadoop.mapred.CassandraJobConf.writeDseHadoopConfig(CassandraJobConf.java:310)~[dse-hadoop-5.0.3.jar:5.0