草庐IT

hadoop - Hbase导入表报错

我试图将数据从一个hbase(v0.98.4)导入到另一个hbase(v0.98.13)。我已使用以下命令导出数据-hbaseorg.apache.hadoop.hbase.mapreduce.Driverexport'tblname'/path/但我无法使用以下命令导入它-hbaseorg.apache.hadoop.hbase.mapreduce.Driverimport'tblname'/hdfs/path/我收到以下弃用消息以及抛出的异常-是不是因为源数据库和目标数据库之间的版本冲突? 最佳答案 我正好解决了。我所要做的就是

java - 在 EMR 上找不到类 Main$MapClass

在我的本地计算机上检查后,我试图在EMR(亚马逊)上运行我的map-reduce作业,但出现此错误:Error:java.lang.RuntimeException:java.lang.ClassNotFoundException:ClassMain$MapClassnotfoundatorg.apache.hadoop.conf.Configuration.getClass(Configuration.java:1720)atorg.apache.hadoop.mapreduce.task.JobContextImpl.getMapperClass(JobContextImpl.ja

scala - 使用 Spark 从目录中读取多个文件

我正在尝试解决这个问题problem在kaggle使用spark:输入的层次结构是这样的:drivers/{driver_id}/trip#.csve.g.,drivers/1/1.csvdrivers/1/2.csvdrivers/2/1.csv我想读取父目录"drivers",对于每个子目录,我想创建一个pairRDD,键为(sub_directory,file_name)和值作为文件的内容我检查了this链接并尝试使用valtext=sc.wholeTextFiles("drivers")text.collect()失败并出现错误:java.lang.ArrayIndexOutO

java - Hadoop HDFS 部署

我试图了解HDFS和variousotherconstituents之间的关系一个典型的Hadoop集群。HDFS是只应该在NameNodes和DataNodes上运行,还是在每个节点类型(MasterNode、SlaveNodes、ZooKeeperNode等)? 最佳答案 读写过程可以引用Hadoop-ThedefinitveGuidebook中的read/write过程。并非所有数据都存储在每个节点上。很少有概念可以经常监视流程并相应地进行交互。请重新审视您的理论概念。快乐学习 关

java - Hadoop实际上是如何接受MR作业和输入数据的?

我可以在Hadoop上找到的所有介绍性教程和文档都有简单/人为的(字数统计风格)示例,其中每个示例都通过以下方式提交给MR:通过SSH连接到JobTracker节点确保包含MR作业的JAR文件位于HDFS上运行bin/hadoopjarshare/hadoop/mapreduce/my-map-reduce.jar形式的HDFS命令实际运行Hadoop/MR从命令行读取MR结果或打开包含结果的文本文件虽然这些示例非常适合向所有新手展示如何使用Hadoop,但它并没有向我展示Java代码实际上如何在API级别与Hadoop/MR集成。我猜想我有点期待:Hadoop公开了某种客户端访问/A

java - Hadoop如何在 "real-time"针对非陈旧数据运行?

我对Hadoop及其“数据摄取”工具(例如Flume或Sqoop)的极度初级理解是,Hadoop必须始终针对数据运行其MR作业存储在其HDFS上的结构化文件中。而且,这些工具(同样是Flume、Sqoop等)基本上负责将数据从不同的系统(RDBMS、NoSQL等)导入HDFS。对我来说,这意味着Hadoop将始终在“陈旧”(缺少更好的词)数据(分钟/小时/等)上运行。老的。因为,将大数据从这些不同的系统导入到HDFS需要时间。当MR甚至可以运行时,数据已经过时并且可能不再相关。假设我们有一个应用程序,它具有在发生某事后500毫秒内做出决定的实时限制。假设我们有大量数据流正在导入HDFS

hadoop - 安全模式下的 Oozie 无效用户

配置oozie以使用hadoop-2.6.0并启用kerberos安全性。我没有使用kinit命令获得票证,但是当我使用以下命令提交作业时,ooziejob-ooziehttp://hostname:11000/oozie-configjob.properties-run它抛出以下异常,Error:E0501:E0501:Couldnotperformauthorizationoperation,User:oozie/hostname@EXAMPLE.COMisnotallowedtoimpersonateKumar我知道如何解决上述错误,但我的问题是Kumar是我的本地帐户用户名。当

json - Hadoop 中的 Twitter json 数据

我已经将Twitter数据流式传输到HDFS。这是我的Twitter代理配置:#settingpropertiesofagentTwitter-agent.sources=source1Twitter-agent.channels=channel1Twitter-agent.sinks=sink1#configuringsourcesTwitter-agent.sources.source1.type=com.cloudera.flume.source.TwitterSourceTwitter-agent.sources.source1.channels=channel1Twitter

java - Spark Java scala 错误

嘿,我想在我的Java项目中使用spark:我已经将此依赖项添加到我的pom文件中:org.apache.sparkspark-core_2.111.4.0我试过这段代码:importorg.apache.spark.api.java.JavaSparkContext;publicclasssparkSQL{publicvoidquery(){JavaSparkContextsc=newJavaSparkContext();}}我在我的main中调用了这个函数,但我得到了这个错误:Exceptioninthread"main"java.lang.NoClassDefFoundError

java - 真正的大数据如何在数据科学家老死之前导入HDFS?

我是Hadoop的新手并且相信我开始看到数据分析(“离线”)与超低延迟的网络应用程序世界有多少不同.我仍在努力理解的一件重要事情是,真正的“大数据”最初是如何进入HDFS的。假设我在各种系统(RDBMS、NoSQL、日志数据等)中存储了500TB的数据。我的理解是,如果我想编写MR作业来查询和分析这些数据,我需要先将其全部导入/摄取到HDFS。但即使我在每个不同的系统和我的Hadoop集群之间有一个1Gbps的网络连接,这也是500TB=500*1000Gb=500,000GB的数据,在1Gbps下,是500,000秒或~138小时将所有数据移植到我的HDFS集群上。差不多一周了。而且