datastax-enterprise-graph

hadoop - PIG 和 HIVE 连接到运行大量 map 的 Datastax Cassandra

我正在使用DSE3.2.4我创建了三个表，其中一个表有1000万行，另一个表有50k行，其他表只有10行当我对这些表运行一个简单的PIG或Hive查询时，它会为这两个表运行相同数量的映射器。在Pig中，默认情况下pig.splitCombination是true其中它只运行一个map如果我将其设置为false，它现在运行513张map。在Hive中默认运行513个映射我尝试设置以下属性mapred.min.split.size=134217728in`mapred-site.xml`nowrunning513mapsforall在pigshell中设置pig.splitCombinat

hadoop - datastax cassandra 设置指南

想知道是否有任何设置指南可用于DatastaxCassandra的容量规划。如果有任何真实世界的用例可用于硬件和软件要求，以利用具有DR和故障转移设置的完整Datastax堆栈，带宽要求将更有用。我在Datstax文档中找到了建议，但想知道这是否足够。最佳答案在您的系统上尝试Cassandra压力测试，您可以根据输出计算硬件要求。单节点输出示例:CassandraPerformanceon1NodeClusterWriteoperation:Results:oprate:6636partitionrate:6636rowrate

cassandra datastax section latency percentile hadoop

graph - 以hadoop为数据源创建图的常用工具有哪些

我想知道人们在需要从大数据源(如hadoop)生成图表时使用什么工具？我听说过Graphite，但它似乎更像是一种实时图形工具，而这并不是我真正想要的。现在，我主要关心的是使用大文件创建图形，其中数据来自pig脚本。顺便说一句，我试过使用excel，但除了对测试结果不完全满意外，我担心如果我有一个真的大数据源，一个excel表可能还不够。提前致谢! 最佳答案如果您不介意命令行，Gnuplot会很棒。关于graph-以hadoop为数据源创建图的常用工具有哪些，我们在StackOver

常用工具 hadoop section strong 大数 graph

graph - 关于来自 Graphlabs : community detection example 的 Graphchi

如果有人知道Graphchi并试图理解communitydetection.cpp代码，我需要帮助来逐步理解这段代码的作用:for(inti=0;iget_data();vid_tnblabel=neighbor_label(edgelabel,vertex.id(),vertex.edge(i)->vertex_id());std::map::iteratorexisting=counts.find(nblabel);intnewcount=0;if(existing==counts.end()){counts.insert(std::pair(nblabel,1));newcoun

Graphlabs community newcount vertex nblabel graph hadoop graphchi

hadoop - Datastax hadoop 节点基础知识

我正在尝试在我的datastax企业集群中设置一些hadoop节点和一些cassandra节点。在这一点上，有两件事我不清楚。一，我需要多少个hadoop节点？它是相同数量的Cassandra节点吗？数据是否仍然存在于cassandra节点上？其次——教程提到我应该在hadoop节点上禁用vnode。我仍然可以在该集群中的cassandra节点上使用vnodes吗？谢谢你。最佳答案在DatastaxEnterprise中，您在同时运行Cassandra的节点上运行Hadoop。最常见的部署是建立两个数据中心(节点的逻辑分组)。一

hadoop 基础知识数据中心 section cassandra datastax-enterprise datastax

hadoop - 基于 Apache Atlas 和 Hive，元数据存储在哪里？在 Titan Graph Repository 中还是在 RDBMS with Hive 中？

我已经安装了Atlas、Hive和Hadoop并正确配置了它们。但是我想知道导入元数据后元数据存储在哪里？根据Atlas的一些文档，它说元数据将存储在Titan图形存储库中。然而，根据Hive的一些文档，它表明元数据将存储在RDBMS中，例如MySql。如果我同时安装Atlas和Hive，元数据将具体存储在哪里？最佳答案虽然现有答案并没有错，但我认为最好指出提问者似乎混淆了两种元数据。Hive元数据:这确实存储在关系数据库中，默认使用MySQLAtlas元数据:这存储在HBase中(旧版本的Titan由Hbase支持？)Hive

Hive Repository section Atlas hadoop metadata titan apache-atlas

hadoop - 在 hadoop-gremlin 中使用 OneTimeBulkLoader 的 janusgraph 引发 "Graph does not support adding vertices"

我的目标:使用SparkGraphComputer将本地数据bulkLoader到janusgraph，然后在hbase和ES上构建混合索引我的问题:Causedby:java.lang.UnsupportedOperationException:Graphdoesnotsupportaddingverticesatorg.apache.tinkerpop.gremlin.structure.Graph$Exceptions.vertexAdditionsNotSupported(Graph.java:1133)atorg.apache.tinkerpop.gremlin.hadoop

hadoop OneTimeBulkLoader gremlin apache tinkerpop graph vertices janusgraph

hadoop - Datastax Enterprise 3.2 配置单元超时异常

我尝试通过DatastaxEnterprise运行简单的配置单元查询，但它总是因超时而失败(在小数据集甚至空表上)。我在AWS上有4个m1.large节点(2xCassandra&2xAnalytics)。见下文:cqlsh:intracker>selectcount(*)fromevent_tracks_by_browser_dateLIMIT100000;count-------15030然后用hive:hive>select*fromevent_tracks_by_browser_datewheretype_id=10;TotalMapReducejobs=1LaunchingJ

配置单 Enterprise java apache hadoop cassandra hive datastax-enterprise

hadoop - Spark : Export graph data to anything (Hive, 文本等)

我有一个以这种方式创建的星图valgraph=Graph(vertices,edges,defaultArticle).cache我的顶点是RDD[(Long,(String,Option[String],List[String],Option[String])]我的边是RDD[Edge[长]]如何将此图形/边/顶点保存到Hive/文本文件/其他任何内容，以及如何读回它？我查看了SparkSQL文档和Spark核心文档，但我仍然没有成功。如果我执行saveAsTextFile()，那么当我读回它时，它是一个RDD[String]，这不是我需要的....编辑:Daniel提供了另存为对象

anything hadoop code section String hive apache-spark rdd

bash - Docker 上的 DataStax Enterprise : fails to start due to/hadoop/conf directory not being writable

我关注了DataStax'sguideonbestpracticesforusingDSEwithDocker，但我在使用DataStax提供的所有默认设置脚本和Dockerfile时遇到了以下错误。错误日志Causedby:java.lang.RuntimeException:FailedtosavecustomDSEHadoopconfigatcom.datastax.bdp.hadoop.mapred.CassandraJobConf.writeDseHadoopConfig(CassandraJobConf.java:310)~[dse-hadoop-5.0.3.jar:5.0

Enterprise directory 34 datastax cassandra bash hadoop docker datastax-enterprise