草庐IT

tbb-flow-graph

全部标签

graph - 以hadoop为数据源创建图的常用工具有哪些

我想知道人们在需要从大数据源(如hadoop)生成图表时使用什么工具?我听说过Graphite,但它似乎更像是一种实时图形工具,而这并不是我真正想要的。现在,我主要关心的是使用大文件创建图形,其中数据来自pig脚本。顺便说一句,我试过使用excel,但除了对测试结果不完全满意外,我担心如果我有一个真的大数据源,一个excel表可能还不够。提前致谢! 最佳答案 如果您不介意命令行,Gnuplot会很棒。 关于graph-以hadoop为数据源创建图的常用工具有哪些,我们在StackOver

hadoop - NiFi 如何从 NiFi Flow 查询内容存储库

我有一个用例,我需要使用另一个流中的FlowFile。据我所知,所有流文件都保存到内容存储库中。因此,例如,我的第一个流程从DB读取数据,执行一些转换并放入Hive。我的第二个流需要获取那些转换后的流文件并将它们放到另一个地方或执行一些过滤等。如何从NiFi流中的内容repo中获取这些流文件? 最佳答案 你错了,流文件的内容被保存到内容存储库中。您无需查询内容存储库即可使用这些FlowFiles。我假设您正在使用PutHiveQL,因此只需为您的下一个流程使用success关系。示例:ExecuteSQL->(success)Tra

graph - 关于来自 Graphlabs : community detection example 的 Graphchi

如果有人知道Graphchi并试图理解communitydetection.cpp代码,我需要帮助来逐步理解这段代码的作用:for(inti=0;iget_data();vid_tnblabel=neighbor_label(edgelabel,vertex.id(),vertex.edge(i)->vertex_id());std::map::iteratorexisting=counts.find(nblabel);intnewcount=0;if(existing==counts.end()){counts.insert(std::pair(nblabel,1));newcoun

hadoop - 基于 Apache Atlas 和 Hive,元数据存储在哪里?在 Titan Graph Repository 中还是在 RDBMS with Hive 中?

我已经安装了Atlas、Hive和Hadoop并正确配置了它们。但是我想知道导入元数据后元数据存储在哪里?根据Atlas的一些文档,它说元数据将存储在Titan图形存储库中。然而,根据Hive的一些文档,它表明元数据将存储在RDBMS中,例如MySql。如果我同时安装Atlas和Hive,元数据将具体存储在哪里? 最佳答案 虽然现有答案并没有错,但我认为最好指出提问者似乎混淆了两种元数据。Hive元数据:这确实存储在关系数据库中,默认使用MySQLAtlas元数据:这存储在HBase中(旧版本的Titan由Hbase支持?)Hive

hadoop - 在 hadoop-gremlin 中使用 OneTimeBulkLoader 的 janusgraph 引发 "Graph does not support adding vertices"

我的目标:使用SparkGraphComputer将本地数据bulkLoader到janusgraph,然后在hbase和ES上构建混合索引我的问题:Causedby:java.lang.UnsupportedOperationException:Graphdoesnotsupportaddingverticesatorg.apache.tinkerpop.gremlin.structure.Graph$Exceptions.vertexAdditionsNotSupported(Graph.java:1133)atorg.apache.tinkerpop.gremlin.hadoop

hadoop - 亚马逊弹性 map 减少 : Job flow fails because output file is not yet generated

我有一个执行三项任务的AmazonEMR作业流程,第一项的输出是后续两项的输入。第二个任务的输出被第三个任务DistributedCache使用。我已经完全在EMR网站(控制台)上创建了作业流,但集群立即失败,因为它找不到分布式缓存文件-因为它尚未在步骤#1中创建。我唯一的选择是通过boostrap操作从CLI创建这些步骤,并指定--wait-for-steps选项吗?我无法执行一个任务的输入依赖于另一个任务的输出的多步骤作业流,这似乎很奇怪。 最佳答案 最后,我通过创建一个自举但没有任何步骤的AmazonEMR集群解决了这个问题。

hadoop - Spark : Export graph data to anything (Hive, 文本等)

我有一个以这种方式创建的星图valgraph=Graph(vertices,edges,defaultArticle).cache我的顶点是RDD[(Long,(String,Option[String],List[String],Option[String])]我的边是RDD[Edge[长]]如何将此图形/边/顶点保存到Hive/文本文件/其他任何内容,以及如何读回它?我查看了SparkSQL文档和Spark核心文档,但我仍然没有成功。如果我执行saveAsTextFile(),那么当我读回它时,它是一个RDD[String],这不是我需要的....编辑:Daniel提供了另存为对象

graph - 将多个顺序 HBase 查询的结果传递给 Mapreduce 作业

我有一个HBase数据库,它存储有向图的邻接表,每个方向的边存储在一对列族中,其中每一行表示一个顶点。我正在编写一个mapreduce作业,它将所有节点作为其输入,这些节点也具有从相同顶点指向的边,因为具有指向其他顶点(指定为查询的主题)的边。这有点难以解释,但在下图中,当查询顶点“A”时,作为输入的节点集将是{A,B,C},因为它们都具有来自顶点的边'1':为了在HBase中执行此查询,我首先在产生{1}的反向边列族中查找边为“A”的顶点,然后,对于该集合中的每个元素,从该元素中查找边为“A”的顶点该集合的前向边缘列族。这应该会产生一组键值对:{1:{A,B,C}}。现在,我想获取这

graph - Hadoop MapReduce 在图中实现最短路径,而不仅仅是距离

我一直在寻找“最短路径搜索算法的MapReduce实现”。但是,我能找到的所有实例都“计算了从节点x到y的最短距离”,但实际上没有一个实例输出“像x-a-b-c-y这样的实际最短路径”。至于我想要实现的是我有数百个节点的图形,我需要对各个节点之间的最短路径执行频繁的模式分析。这是我正在进行的研究项目。如果有人能指出一些实现(如果存在的话)或给出一些关于如何破解现有SSSP实现以生成路径和距离. 最佳答案 基本上这些实现与某种消息传递一起工作。因此消息在map和reduce阶段之间被发送到HDFS。在reducer中,它们按距离分组和

hadoop - 亚马逊弹性 map 减少 : Listing job flows in command line tools Issue?

我是Amazon网络服务的新手,我正在尝试使用命令行界面工具在Amazonelasticmapreduce作业上运行作业流。我按照来自aws的开发人员指南的亚马逊开发人员指南中的步骤进行操作。但事情对我来说并不清楚。如果我执行命令./elastic-mapreduce--list列出作业流程。显示以下错误。/home/pdurai/Applications/elastic-mapreduce-cli/amazon/coral/httpdestinationhandler.rb:23:warning:elsewithoutrescueisuseless/usr/local/rbenv/v