草庐IT

Neo4j-Graph

全部标签

hadoop - 基于 Apache Atlas 和 Hive,元数据存储在哪里?在 Titan Graph Repository 中还是在 RDBMS with Hive 中?

我已经安装了Atlas、Hive和Hadoop并正确配置了它们。但是我想知道导入元数据后元数据存储在哪里?根据Atlas的一些文档,它说元数据将存储在Titan图形存储库中。然而,根据Hive的一些文档,它表明元数据将存储在RDBMS中,例如MySql。如果我同时安装Atlas和Hive,元数据将具体存储在哪里? 最佳答案 虽然现有答案并没有错,但我认为最好指出提问者似乎混淆了两种元数据。Hive元数据:这确实存储在关系数据库中,默认使用MySQLAtlas元数据:这存储在HBase中(旧版本的Titan由Hbase支持?)Hive

hadoop - sqoop2 没有从 hadoop 中找到 log4j2

我正在尝试在我的ubuntu服务器上安装sqoop2(1.99.7)。我正在尝试按照apache网站上提供的说明进行操作here.我有一个有效的hadoop安装,我已经下载sqoop文件并将其解压缩到/usr/local/sqoop位置。tar-xvfsqoop-1.99.7-bin-hadoop200.tar.gzmvsqoop-1.99.7-bin-hadoop200/usr/local/sqoop我相信我已经定义了所有环境变量,特别是HADOOP_HOME,我认为它是用来指示sqoop查找jar文件的位置。但是,当我尝试使用sqoop2-toolverify验证安装时,我得到以下

hadoop - spark2-shell 中的 Log4j

我正在通过spark2-shell-i选项运行其中一个spark脚本。我想使用log4j框架将生成的日志重定向到一个文件。我曾经运行的命令:spark2-shell--masteryarn--deploy-modeclient-iaudit.scala--confspark.driver.args="PRODsample.txt"--files/bigdata/datalakes/app/log/log4j.properties#log4j.properties--confspark.driver.extraJavaOptions='-Dlog4j.configuration=file

hadoop - log4j.properties 过滤掉 Spark 和 YARN 日志

大家好,大家有一个关于ApacheSpark中的log4j的问题。在Sparklog4j中,如果我们使用“log4j.rootCategory=WARN”,这意味着它将过滤掉所有警告日志,但现在如果我只想过滤掉“Spark”和“YARN”日志,配置应该如何?log4j.rootCategory=WARN,consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.outlog4j.appender.console.layout=org.apache.

hadoop - 在 hadoop-gremlin 中使用 OneTimeBulkLoader 的 janusgraph 引发 "Graph does not support adding vertices"

我的目标:使用SparkGraphComputer将本地数据bulkLoader到janusgraph,然后在hbase和ES上构建混合索引我的问题:Causedby:java.lang.UnsupportedOperationException:Graphdoesnotsupportaddingverticesatorg.apache.tinkerpop.gremlin.structure.Graph$Exceptions.vertexAdditionsNotSupported(Graph.java:1133)atorg.apache.tinkerpop.gremlin.hadoop

hadoop - 如何更改 hadoop 中 map reduce 函数的 log4j 级别

如标题,如何通过将参数传递给命令行来更改hadoop中mapreduce函数的log4j级别。我不想以编程方式更改级别。谢谢 最佳答案 您应该实现ToolRunner。在Hadoop权威指南中有一章描述它,source 关于hadoop-如何更改hadoop中mapreduce函数的log4j级别,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/15240101/

hadoop - solr 和 hadoop 之间的 Slf4j 兼容性问题

我在hadoop上使用庞然大物solr,我在slf4j版本中遇到了冲突。Solr3.6.2使用slf4j-api-1.6.1,hadoop1.0.4有slf4j-api-1.4.3的库。因此,我无法在hadoop上运行庞大的solrjar文件。解决此冲突的最佳方法是什么?一种选择是替换hadoop中的slf4j库,但我不愿意这样做。任何解决方案将不胜感激。 最佳答案 您应该能够在Hadoop中将slf4j-api-1.4.3.jar替换为slf4j-api-1.6.1.jar而不会出现任何问题,因为从调用者的角度来看,所有版本的sl

hadoop - Spark : Export graph data to anything (Hive, 文本等)

我有一个以这种方式创建的星图valgraph=Graph(vertices,edges,defaultArticle).cache我的顶点是RDD[(Long,(String,Option[String],List[String],Option[String])]我的边是RDD[Edge[长]]如何将此图形/边/顶点保存到Hive/文本文件/其他任何内容,以及如何读回它?我查看了SparkSQL文档和Spark核心文档,但我仍然没有成功。如果我执行saveAsTextFile(),那么当我读回它时,它是一个RDD[String],这不是我需要的....编辑:Daniel提供了另存为对象

hadoop - 如何覆盖 hadoop 中的默认 log4j 属性

目前我们正在使用hadoop.root.logger="INFO,console"进行mapreduce和spark作业。我想用"WARN,console"覆盖,我试图设置全局变量exportHADOOP_ROOT_LOGGER="WARN,console"在hadoop-env.sh但它不工作。我可以在yarn日志中看到信息、警告、错误。我如何覆盖这些设置。 最佳答案 文件yarn-env.sh包含覆盖YARN进程日志级别的这些行。YARN_OPTS="$YARN_OPTS-Dhadoop.root.logger=${YARN_R

java - 对于嵌入式数据库,数据库是否加载到 neo4j 的主内存中?

我试图解析一个大文件并在neo4j数据库中为其创建节点。我使用mapreduce并因此为每个reduce调用加载以下行。GraphDatabaseServicedb=newGraphDatabaseFactory().newEmbeddedDatabase(DB_PATH);现在,这条线在运行一段时间后给我以下异常-java.lang.OutOfMemoryError:GCoverheadlimitexceededatorg.neo4j.io.pagecache.impl.muninn.MuninnPageCache.(MuninnPageCache.java:230)atorg.ne