草庐IT

data_submitted

全部标签

hadoop - 获取 java.lang.OutOfMemoryError : GC overhead limit exceeded While Submitting Map Reduce

提交mapreduce时收到以下消息。我使用-XX:MaxPermSize=128m内存大小启动我的mapreduce程序。有没有人知道现在发生了什么-17/03/2409:58:46INFOhdfs.DFSClient:CreatedHDFS_DELEGATION_TOKENtoken1160328forsvc_pffronha-hdfs:nameservice317/03/2409:58:46ERRORhdfs.KeyProviderCache:Couldnotfinduriwithkey[dfs.encryption.key.provider.uri]tocreateakeyPr

hadoop - SAP 沃拉 : Not able to add Vora table as Virtual table via Smart Data Access in HANA Studio

我正在使用带有HANAExpress2SP01的虚拟机。在一个小型测试集群上,我安装了HortonworksDataPlatform2.6和Spark1.6.3,还添加了HANAVora1.4和SparkController2.1。我遵循了SAPVora安装和管理指南:https://help.sap.com/http.svc/rc/f09ec811fe634f588647c342cac84c38/1.4/en-US/SAP_Vora_Installation_Admin_Guide_1.4_en.pdf直到第2.9章。一切正常,但Zeppelin部分与%jdbc解释器:%jdbcse

Spring Boot Data JPA - 修改更新查询 - 刷新持久性上下文

我正在使用SpringBoot1.3.0.M4和MySQL数据库。我在使用修改查询时遇到问题,EntityManager在查询执行后包含过时的实体。原始JPA存储库:publicinterfaceEmailRepositoryextendsJpaRepository{@Transactional@Modifying@Query("updateEmailesete.active=falsewheree.active=trueande.expire假设我们在数据库中有电子邮件[id=1,active=true,expire=2015/01/01]。执行后:emailRepository.s

Spring Boot Data JPA - 修改更新查询 - 刷新持久性上下文

我正在使用SpringBoot1.3.0.M4和MySQL数据库。我在使用修改查询时遇到问题,EntityManager在查询执行后包含过时的实体。原始JPA存储库:publicinterfaceEmailRepositoryextendsJpaRepository{@Transactional@Modifying@Query("updateEmailesete.active=falsewheree.active=trueande.expire假设我们在数据库中有电子邮件[id=1,active=true,expire=2015/01/01]。执行后:emailRepository.s

hadoop - Q : how to unnest bags from complicated data structure in PIG

原来我有这样的结构:+-------+-------+----+----+----+-----+|time|type|s1|s2|id|p1|+-------+-------+----+----+----+-----+|10:30|send|a|b|1|110||10:35|send|c|d|1|120||10:31|reply|e|f|3|221||10:33|reply|a|c|1|210||10:34|send|a|a|3|113||10:32|reply|c|d|3|157|+-------+-------+----+----+----+-----+我想规范化表格:按id对条目

hadoop - 来自 ambari 的 Data-node Alive 不稳定

我们有ambari集群版本-2.6.1和hadoop版本2.6.4数据节点的数量是-10从ambari仪表板我们可以看到显示以下内容的窗口:DataNodesLive9/10但几分钟后所有数据节点都还活着:DataNodesLive10/10几分钟后我们又见面了DataNodesLive9/10似乎namenode已经超过interval没有收到来自datanode的心跳消息,然后datanode将被标记为“已死”我们检查以下内容:主机解析-OK(DNSOK)IP的解析是-好的(DNS是好的)HDFS服务校验成功每个数据节点都已启动(ps-ef|grepdatanode|grep-vg

apache-spark - 在 rapidminer : error occurred during submitting or starting the spark job 上运行 Spark

我正在使用rapidminer从大型数据集中提取规则。Radoop是hadoop生态系统的扩展,而sparkRM运算符允许进行fp-growth,从从hive检索数据到探索分析。我正在尝试:-Windows8.1-hadoop6.2-Spark1.5-hive2.1我已将spark-default-conf配置如下:#spark.masteryarn#spark.eventLog.enabledtrue#spark.eventLog.dirhdfs://namenode:8021/directory#spark.serializerorg.apache.spark.serializer

shell - 通过 Oozie 工作流提交的 shell 脚本中存在 Spark-submit 不起作用

通过OozieWorkflow,我提交了一个shell脚本,其中包含spark-submit命令。我通过oozie控制台在hdfs/user/admin/first.sh中上传了shell脚本。当我运行脚本直到spark-submit命令时,它运行良好。当它尝试运行spark-submitcmd时,它失败了。本地文件系统中存在spark-submit的原因,但我的脚本正在hadoop管理员用户的hadoop文件系统中运行。任何解决这个问题的方法。如何在hadoop文件系统中从hadoop用户运行本地文件系统(spark-submit)命令,或者我可以在Oozi的帮助下将脚本从hadoo

postgresql - 当 Hawq 投诉 : missing data for column "SoldToAddr2" 时如何解决错误

我们有一个小型的关键hadoop-hawq系统集群。我们必须读取一个外部表。即从ext_table中选择*但是当我在Hawq中发出关于以下错误的投诉时:ErrorHawqcomplaintsfor:missingdataforcolumn"SoldToAddr2"我们尝试了以下操作:我们尝试在ext_table定义的格式子句中使用不同的特殊字符:forex:CREATEREADABLEEXTERNALTABLEext_table("ID"INTEGER,timetimestamp,"Customer"char(7),"Name"varchar,"ShortName"char(10),"

hadoop - 在配置 EMR 后,如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR?

我正在AWS中创建一个数据管道来运行Pig任务。但是我的Pig任务需要EMR中的附加文件。在创建集群之后和运行pigtasked之前,我如何告诉DataPipeline将文件复制到EMR?我只需要运行这两个命令。hdfsdfs-mkdir/somefolderhdfsdfs-putsomefile_from_s3/somefoler/ 最佳答案 如果您可以选择修改Pig脚本,则可以运行mkdir并将命令放在脚本的顶部(https://pig.apache.org/docs/r0.9.1/cmds.html)。否则,您可以使用在Emr