草庐IT

data_stream

全部标签

hadoop - 使用 Spark Streaming 将非结构化数据持久化到 Hadoop

我有一个使用SparkStreaming创建的摄取管道,我想将RDD作为大型非结构化(JSONL)数据文件存储在hadoop中,以简化future的分析。将astream持久化到hadoop而不会产生大量小文件的最佳方法是什么?(因为hadoop不适合这些,而且它们使分析工作流程复杂化) 最佳答案 首先,我建议使用可以像Cassandra一样处理这种情况的持久层。但是,如果您对HDFS死心塌地,那么themailinglisthasanansweralready您可以使用FileUtil.copyMerge(来自hadoopfs)A

csv - 最佳实践 : how to handle data records with changing "schema"/ "columns"

这是一个最佳实践问题。我们的设置是一个hadoop集群,将(日志)数据存储在hdfs中。我们获取csv格式的数据,每天一个文件。在hadoop中对这些文件运行MR作业没问题,只要文件的“架构”(尤其是列数)不变即可。但是,我们面临的问题是,我们要分析的日志记录最终会发生变化,因为可能会添加或删除列。我想知道你们中的一些人是否愿意分享针对此类情况的最佳实践。我们目前能想到的最好的方式是将数据存储为json格式而不是csv。但是,这会增加(至少增加一倍)所需的存储空间。我们还遇到了ApacheAvro和ApacheParquet,并且刚刚开始对此进行研究。欢迎就此问题提出任何想法和意见。

json - org.openx.data.jsonserde.json.JSONObject 无法转换为 org.openx.data.jsonserde.json.JSONArray

我正在尝试从配置单元读取json文件。我正在使用JsonSerdeapi加载json却报错...16moreCausedby:java.lang.ClassCastException:org.openx.data.jsonserde.json.JSONObjectcannotbecasttoorg.openx.data.jsonserde.json.JSONArrayatorg.openx.data.jsonserde.objectinspector.JsonListObjectInspector.getList(JsonListObjectInspector.java:38)ator

hadoop - Windows 平台上是否有 Hortonwork Data 平台的管理器

大家好,我是Hortonworks数据平台的新手。我在WindowsServer2012R2上安装了HDP2.4。截至目前,我正在命令提示符下运行我的Pig作业,但我想知道Cloudera中是否有像HUE这样的编辑器和像clouderaManager这样的HortonsManager。我在Windows操作系统上工作,所以我认为Hortonworks的Ambari也不支持。请在这方面帮助我。 最佳答案 像clouderamanager一样,对于hortonworks,ambari-service是存在的,但它仅适用于基于ubuntu

论文笔记:CellSense: Human Mobility Recovery via Cellular Network Data Enhancement

1 intro1.1背景1.1.1 蜂窝计费记录(CBR)人类移动性在蜂窝网络上的研究近些年得到了显著关注,这主要是因为手机的高渗透率和收集手机数据的边际成本低蜂窝服务提供商收集蜂窝计费记录(CBR)用于计费目的,例如电话、短信和互联网访问这些记录可以被重新利用来感知用户的位置与仅涉及用户电话和短信通话记录的通话详单记录(CDR)相比,CBR是一个更通用的数据集依靠网络运营商收集的各种CBR数据集,研究人员广泛研究了人类移动性感知集体移动性,如流量和旅行时间个人移动性,如通勤模式和用户空间画像这些都是基于统计方法的,例如隐马尔可夫模型或条件随机场文章地址天数大小HumanMobilityMod

hadoop - 是否有一个好的库可以帮助使用 Hadoop Streaming 和 Python 链接 MapReduce 作业?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭去年。ImprovethisquestionThis问题回答了我的部分问题,但不完全。我如何运行管理它的脚本,它来self的本地文件系统吗?MrJob或Dumbo之类的东西究竟在哪里出现?还有其他选择吗?我正在尝试运行K-Means,其中每次迭代(MapReduce作业)输出将作为HadoopStreaming和Python下一次迭代的输入。我没有太多经验,任何信息都可以帮助我完成这项工作。谢谢!

java - 如何捆绑自定义 hadoop-streaming.jar

我正在尝试通过Yelp的EMRMrJob工具使用CombineFileInputFormat类。作业流是使用hadoop流创建的,MrJob的文档指出CombineFileInputFormat类必须捆绑在自定义的hadoop-streaming.jar中。有关上下文,请遵循此question.具体来说,我的问题是:具体类CombinedInputFormat.class应该在hadoop-streaming.jar中的什么地方被捆绑或引用?我尝试通过将CombinedInputFormat.class添加到目录org/apache/hadoop/streaming并执行来捆绑它:ja

java - 如何将字节数组写入和读取到 DataInput 和 DataOutput Stream

Hbase充当我的Mapreduce作业的源和接收器。我已经编写了名为(vectorwritable)的自定义可写类,它有两个字段。privateDoubleVectorvector;//ItisaDoubleArrayprivatebyte[]rowKey;//TherowkeyoftheHbase我的映射器将它作为它的值发出,因此我在我的vectorWritable类中实现了写入和读取方法@Overridepublicfinalvoidwrite(DataOutputout)throwsIOException{writeVectorCluster(this.vector,this.

spring - 我如何使用带有注解驱动配置的 Spring Data HBase

我对SpringData和HBase很感兴趣。我将这个jar包含在我的pom中:org.springframework.dataspring-data-hadoop1.0.1.RELEASE我看到somereferences关于使用HbaseTemplate类。这些例子都有基于XML的SpringHBase配置。我正在使用注释基础配置,//defaultHBaseconfiguration//wirehbaseconfiguration(usingdefaultname'hbaseConfiguration')intothetemplate我如何通过注释来做到这一点,例如:@Bean@

hadoop - Spark Streaming - HBase 批量加载

我目前正在使用Python将CSV数据批量加载到HBase表中,目前我在使用saveAsNewAPIHadoopFile编写适当的HFile时遇到了问题我的代码目前如下所示:defcsv_to_key_value(row):cols=row.split(",")result=((cols[0],[cols[0],"f1","c1",cols[1]]),(cols[0],[cols[0],"f2","c2",cols[2]]),(cols[0],[cols[0],"f3","c3",cols[3]]))returnresultdefbulk_load(rdd):conf={#Ommitt