master-data-management

hadoop - 如果添加到 zookeeper 的 master 之一关闭，则事件 master 不接受新申请

我在spark独立集群中启用高可用性(HA)时遇到了一个非常奇怪的问题。我已经配置了3个sparkmaster，并按照以下步骤在zookeeper中注册了它们:创建配置文件ha.conf，内容如下:spark.deploy.recoveryMode=ZOOKEEPERspark.deploy.zookeeper.url=ZK_HOST:2181spark.deploy.zookeeper.dir=/spark通过将此属性文件作为参数传递给start-master脚本来启动所有3个主控器，如下所示:./start-master.sh-hlocalhost-p17077--webui-po

一关 master spark scala apache hadoop apache-spark bigdata apache-zookeeper high-availability

hadoop - pig : get data from hive table and add partition as column

我有一个分区的Hive表，我想将其加载到Pig脚本中，并且还想将分区添加为列。我该怎么做？Hive中的表定义:CREATEEXTERNALTABLEIFNOTEXISTStransactions(column1string,column2string)PARTITIONEDBY(datestampstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION'/path';pig脚本:%defaultINPUT_PATH'/path'A=LOAD'$INPUT_PATH'USINGPigStorage('|')AS(column1:cha

partition hadoop section strong code hive apache-pig

apache - Hbase Master 和 Region 服务器无法启动

Hadoop在分布式模式下成功运行。在分布式模式下启动HBase时出现以下错误。尝试了hbase-site.xml配置中的所有内容。不知道如何处理这个问题？014-03-1013:55:42,493INFOorg.apache.zookeeper.ClientCnxn:Openingsocketconnectiontoserverip-112-11-1-111.ec2.internal/112.11.1.111:2181.WillnotattempttoauthenticateusingSASL(Unabletolocatealoginconfiguration)2014-03-101

apache Master zookeeper java hadoop hbase cluster-computing apache-zookeeper

java - 如何处理 master actor 故障

我是Akka的新手，我构建了一个连接到HDFS的Akka模型，提取数据，对其进行处理并将处理后的数据写回HDFS。现在，如果我的masteractor崩溃了，那么相应的子actor(Workers)也会崩溃，整个系统必须重新启动。因此，如果有一个创建辅助主控的进程，一旦主主控发生故障且恢复时间最短，它会自动开始运行。我无法围绕这个画出清晰的画面。我们将不胜感激。谢谢最佳答案来自docs:/user:TheGuardianActorTheactorwhichisprobablymostinteractedwithisthepare

何处 master section guardian actor java hadoop akka

hadoop - Sqoop中--connection-manager的意义

我已经编写了sqoop脚本来将数据从Teradata导入到Hive。`sqoopimport\--connect$JDBC_URL\--drivercom.teradata.jdbc.TeraDriver\--username$Username\--password$Password\--table$TD_Table\--hive-import\--hive-overwrite\--hive-drop-import-delims\--hive-table$Hive_Database.$Hive_Staging_Table\--split-by$Split_Col\-m$Mapper_N

connection-manager connection code 连接管 section hadoop hive teradata sqoop

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

这是一个最佳实践问题。我们的设置是一个hadoop集群，将(日志)数据存储在hdfs中。我们获取csv格式的数据，每天一个文件。在hadoop中对这些文件运行MR作业没问题，只要文件的“架构”(尤其是列数)不变即可。但是，我们面临的问题是，我们要分析的日志记录最终会发生变化，因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为json格式而不是csv。但是，这会增加(至少增加一倍)所需的存储空间。我们还遇到了ApacheAvro和ApacheParquet，并且刚刚开始对此进行研究。欢迎就此问题提出任何想法和意见。

amp 34 section stackoverflow 的 csv hadoop bigdata avro parquet

json - org.openx.data.jsonserde.json.JSONObject 无法转换为 org.openx.data.jsonserde.json.JSONArray

我正在尝试从配置单元读取json文件。我正在使用JsonSerdeapi加载json却报错...16moreCausedby:java.lang.ClassCastException:org.openx.data.jsonserde.json.JSONObjectcannotbecasttoorg.openx.data.jsonserde.json.JSONArrayatorg.openx.data.jsonserde.objectinspector.JsonListObjectInspector.getList(JsonListObjectInspector.java:38)ator

jsonserde json section apache hadoop hive hiveql

hadoop - Impala Cloudera Manager 代理从该角色的 Web 服务器获得意外响应

我已经用clouderamanager完成了一个hadoop集群安装。安装后impala状态变坏了。主节点出现以下错误:WebServerStatus这一个用于带有imapala守护进程的节点:ImpalaDaemonReadyCheck,WebServerStatus查看日志我发现了一些错误:ThehealthtestresultforIMPALAD_WEB_METRIC_COLLECTIONhasbecomebad:TheClouderaManagerAgentgotanunexpectedresponsefromthisrole'swebserver.查看cloudera-scm

Cloudera Manager code section pre hadoop impala

hadoop - Cloudera Manager 健康问题 : NameNode Connectivity, Web 服务器状态

以下是CM上报告的健康问题的快照。列表中的数据节点不断变化。数据节点日志中的一些错误:3:59:31.859PMERRORorg.apache.hadoop.hdfs.server.datanode.DataNodedatanode05.hadoop.com:50010:DataXceivererrorprocessingWRITE_BLOCKoperationsrc:/10.248.200.113:45252dest:/10.248.200.105:50010java.io.IOException:PrematureEOFfrominputStreamatorg.apache.had

Connectivity Cloudera java hadoop apache cloudera-cdh cloudera-manager

hadoop - Windows 平台上是否有 Hortonwork Data 平台的管理器

大家好，我是Hortonworks数据平台的新手。我在WindowsServer2012R2上安装了HDP2.4。截至目前，我正在命令提示符下运行我的Pig作业，但我想知道Cloudera中是否有像HUE这样的编辑器和像clouderaManager这样的HortonsManager。我在Windows操作系统上工作，所以我认为Hortonworks的Ambari也不支持。请在这方面帮助我。最佳答案像clouderamanager一样，对于hortonworks，ambari-service是存在的，但它仅适用于基于ubuntu

Hortonwork 台上 section Windows stackoverflow hadoop hive apache-pig hortonworks-data-platform hue

94 95 969798 99 100