草庐IT

HADOOP_PREFIX

全部标签

hadoop - 使用 spark 跨 hadoop 集群复制数据

我有一种情况,我必须将数据/文件从PROD复制到UAT(hadoop集群)。为此,我现在正在使用'distcp'。但它需要永远。由于distcp在引擎盖下使用map-reduce,有什么方法可以使用spark使过程更快?就像我们可以将hive执行引擎设置为'TEZ'(以替换map-reduce),我们是否可以将执行引擎设置为sparkfordistcp?或者是否有任何其他'spark'跨集群复制数据的方法,甚至可能不关心distcp?这是我的第二个问题(假设我们可以将distcp执行引擎设置为spark而不是map-reduce,否则请不要费心回答这个问题):-据我所知,Spark比m

hadoop - Oozie - 有没有办法在整个集群上只执行一个 java 操作实例?

当我查看我的日志时,我发现我的ooziejava操作实际上在多台机器上运行。我认为这是因为它们被包裹在m/r作业中?(这是正确的吗)有没有办法在整个集群上只执行一个java操作实例? 最佳答案 Java操作在Oozie“启动器”作业中运行,只有一个YARN“映射”容器。诀窍在于每个YARN作业都需要一个应用程序主(AM)容器进行协调。所以你最终有2个容器,_0001用于AM和_0002用于Oozie操作,可能在不同的机器上。要控制每个资源的分配,您可以设置以下操作属性来覆盖您的/etc/hadoop/conf/*-site.xml配

java - 将 Reducer 的输出添加到 Hadoop 中的列表

我正在尝试将reducer的输出添加到list中,然后在读取所有值后访问并打印列表。这是我正在做的:-publicclassReducerextendsReducer{publicstaticfinalLoggerLOG=LoggerFactory.getLogger(Reducer.class);publicListkeys=newArrayList(1000);publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{for(BooleanWritabl

hadoop - Sqoop 导出插入重复条目

我想了解sqoop导出的工作原理。我在mysql中有一个表站点,其中包含两列id和url,并且包含两行1,www.yahoo.com2,www.gmail.com表没有主键当我通过执行以下命令将条目从HDFS导出到mysql站点表时,它会插入重复的条目我在HDFS中有以下条目1,www.one.com2,www.2.com3,www.3.com4,www.4.comsqoopexport--tablesite--connectjdbc:mysql://localhost/loudacre--用户名训练--密码训练--export-dir/site/--update-modeallowi

python - 创建 step spark python, amazon hadoop

我正在Amazon上使用Hadoop创建一个Spark步骤,但我一直在思考。不是因为我的代码不好或发送错误的判断,而是找不到出路。我传递代码spark-submit--deploy-modecluster--masteryarn--num-executors5--executor-cores5--executor-memory1gs3://URL-S3/scripts/test.py脚本:importboto3dynamodb=boto3.resource('dynamodb')table=dynamodb.Table('TestSpark')table.put_item(Item={

hadoop - sqoop导入数据到hive

我正在尝试使用sqoop2将数据导入到配置单元表。我正在使用--hive-import但它不起作用代码:sqoopimport--connectjdbc:sqlserver://192.168.x.xxx:11xx--usernameuser--passworduser--tablexxxx.NOTIFICATION--hive-import错误:ERRORmanager.SqlManager:Errorexecutingstatement:com.microsoft.sqlserver.jdbc.SQLServerException:Invalidobjectname'XXXX.NO

azure - 从 Azure SQL 数据仓库查询 Hadoop ORC 表

我在从AzureSQL数据仓库读取在AzureHDInsight中创建的ORC表时遇到问题。请参阅下面的顺序来设置HDInsight实例以及AzureSQL数据仓库。我创建了一个文本文件(Sales.txt),内容如下20150614|1|10.5020150618|1|100.7520150924|1|89.7520160214|2|10456.9020150922|3|34.7020151021|3|43.7020151225|3|65.9020151231|3|87.5020160101|4|1349.4020160512|4|3982.4020150608|5|398.9020

hadoop - cdh 5.8.0 上的 TestDFSIO 基准测试

环境详情:操作系统:CentOS7.2CDH:CDH5.8.0主机:11(2个master,4个DN+NM,5个NM)yarn.nodemanager.resource.memory-mb32074MB(对于NodeManagergroup1)82384MB(对于NodeManager组2)我有一个hadoop集群,其中包含11个节点、2个主节点、4个运行数据节点和节点管理器守护进程的从节点,5个节点仅运行节点管理器守护进程。在这个集群上,我正在运行TestDFSIO基准测试作业,负载为8TB,有10000个文件,每个文件大小为800MB。我注意到一些我无法正确理解的事情。1)这个jo

Hadoop 和地理空间连接器

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion我正在使用ClouderaHadoop,我想执行空间分析并且需要连接到量子GIS(QGIS)以用于地理空间目的。我需要知道如何连接QGIS和Hadoop。除了ARCGIS之外,还有其他方法可以连接任何其他GIS系统吗?

hadoop - 在后续 Action 中获取 YARN Action 应用 ID

我正在运行OOZIE工作流,并在map-reduce操作中进行仅限map的分布式模型拟合。由于有很多映射器,我编写了一个代码,使用yarnlogs-applicationIdapplication_x编译所有映射器任务的YARN日志,其中application_x是所有映射任务的父应用程序ID。现在我想将此摘要作为工作流的一部分,因此我需要动态获取application_x,这是上一个操作的应用程序ID。有什么办法可以得到这个吗? 最佳答案 我没有对此进行测试,但我认为您可以通过工作流EL函数获得此信息:wf:actionExter