data_manager

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

时出 Yarn-Client client current hadoop apache-spark hbase block hortonworks-data-platform

hadoop - 集群安装卡在cloudera manager中的 "installation in progress"

我已经在ubuntu操作系统中安装了Clouderamanager5.4版本。当我尝试使用cloudera管理器安装集群时，它卡住了“正在安装”，没有任何错误。我只能从/var/log/cloudera-scm-server/cloudera-scm-server.log中看到两个错误2015-05-1219:11:42,715ERRORmain:org.hibernate.engine.jdbc.spi.SqlExceptionHelper:ERROR:relation"cm_version"doesnotexistPosition:212015-05-1219:16:58,585E

installation amp section cloudera code hadoop cloudera-cdh

hadoop - Data locality 概念是否也适用于 Reducers？

我的理解:数据局部性的概念仅适用于Mapper，因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念？数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时，Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性？最佳答案不，数据局部性概念仅适用于MAPPERS。Reducer是根据par

Reducers locality section strong hadoop mapreduce

hadoop - pig : get data from hive table and add partition as column

我有一个分区的Hive表，我想将其加载到Pig脚本中，并且还想将分区添加为列。我该怎么做？Hive中的表定义:CREATEEXTERNALTABLEIFNOTEXISTStransactions(column1string,column2string)PARTITIONEDBY(datestampstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION'/path';pig脚本:%defaultINPUT_PATH'/path'A=LOAD'$INPUT_PATH'USINGPigStorage('|')AS(column1:cha

partition hadoop section strong code hive apache-pig

hadoop - Sqoop中--connection-manager的意义

我已经编写了sqoop脚本来将数据从Teradata导入到Hive。`sqoopimport\--connect$JDBC_URL\--drivercom.teradata.jdbc.TeraDriver\--username$Username\--password$Password\--table$TD_Table\--hive-import\--hive-overwrite\--hive-drop-import-delims\--hive-table$Hive_Database.$Hive_Staging_Table\--split-by$Split_Col\-m$Mapper_N

connection-manager connection code 连接管 section hadoop hive teradata sqoop

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

这是一个最佳实践问题。我们的设置是一个hadoop集群，将(日志)数据存储在hdfs中。我们获取csv格式的数据，每天一个文件。在hadoop中对这些文件运行MR作业没问题，只要文件的“架构”(尤其是列数)不变即可。但是，我们面临的问题是，我们要分析的日志记录最终会发生变化，因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为json格式而不是csv。但是，这会增加(至少增加一倍)所需的存储空间。我们还遇到了ApacheAvro和ApacheParquet，并且刚刚开始对此进行研究。欢迎就此问题提出任何想法和意见。

amp 34 section stackoverflow 的 csv hadoop bigdata avro parquet

json - org.openx.data.jsonserde.json.JSONObject 无法转换为 org.openx.data.jsonserde.json.JSONArray

我正在尝试从配置单元读取json文件。我正在使用JsonSerdeapi加载json却报错...16moreCausedby:java.lang.ClassCastException:org.openx.data.jsonserde.json.JSONObjectcannotbecasttoorg.openx.data.jsonserde.json.JSONArrayatorg.openx.data.jsonserde.objectinspector.JsonListObjectInspector.getList(JsonListObjectInspector.java:38)ator

jsonserde json section apache hadoop hive hiveql

hadoop - Impala Cloudera Manager 代理从该角色的 Web 服务器获得意外响应

我已经用clouderamanager完成了一个hadoop集群安装。安装后impala状态变坏了。主节点出现以下错误:WebServerStatus这一个用于带有imapala守护进程的节点:ImpalaDaemonReadyCheck,WebServerStatus查看日志我发现了一些错误:ThehealthtestresultforIMPALAD_WEB_METRIC_COLLECTIONhasbecomebad:TheClouderaManagerAgentgotanunexpectedresponsefromthisrole'swebserver.查看cloudera-scm

Cloudera Manager code section pre hadoop impala

hadoop - Cloudera Manager 健康问题 : NameNode Connectivity, Web 服务器状态

以下是CM上报告的健康问题的快照。列表中的数据节点不断变化。数据节点日志中的一些错误:3:59:31.859PMERRORorg.apache.hadoop.hdfs.server.datanode.DataNodedatanode05.hadoop.com:50010:DataXceivererrorprocessingWRITE_BLOCKoperationsrc:/10.248.200.113:45252dest:/10.248.200.105:50010java.io.IOException:PrematureEOFfrominputStreamatorg.apache.had

Connectivity Cloudera java hadoop apache cloudera-cdh cloudera-manager

hadoop - Windows 平台上是否有 Hortonwork Data 平台的管理器

大家好，我是Hortonworks数据平台的新手。我在WindowsServer2012R2上安装了HDP2.4。截至目前，我正在命令提示符下运行我的Pig作业，但我想知道Cloudera中是否有像HUE这样的编辑器和像clouderaManager这样的HortonsManager。我在Windows操作系统上工作，所以我认为Hortonworks的Ambari也不支持。请在这方面帮助我。最佳答案像clouderamanager一样，对于hortonworks，ambari-service是存在的，但它仅适用于基于ubuntu

Hortonwork 台上 section Windows stackoverflow hadoop hive apache-pig hortonworks-data-platform hue

87 88 899091 92 93