hadoop-release

linux - 我是否需要在 Windows 中使用 Hadoop 来连接在 Linux 上运行的 hbase？

我是否需要在我的Windows中使用Hadoop来使用hadoop连接在ununtu上运行的hbase？我的hbase在我的ubuntu机器上运行良好。我可以在同一台机器上连接eclipse(我正在使用kundera连接hbase)。现在我想从我的windows7eclipseIDE连接hbase。我需要在我的Windows上安装hadoop来连接ubuntu上的远程hbase吗？？当我尝试时，我得到了这样的东西FailedtolocatethewinutilsbinaryinthehadoopbinarypathReadaboutopen-sourcetechnology.IOExc

scala - 如何在现有的 Hadoop 2.x 中使用 spark

我们已经在服务器上安装了Hadoop2.5。是不是可以用那个Hadoop来部署Spark程序呢？我希望Spark使用现有的Yarn来调度任务，并能够读写现有的HDFS。我怎样才能做到这一点？最佳答案您可以尝试使用可用的ApacheSpark预构建下载https://spark.apache.org/downloads.html如果那没有解决，那么你需要通过添加你的hadoopjar来构建sparkhttps://spark.apache.org/docs/latest/building-spark.html很简单然后您的Spar

何在 Hadoop spark https section scala apache-spark bigdata

hadoop - Hadoop 中的 MR 作业后创建了多少输出文件？

我有一个小于(非常小)默认block大小的文件。我的Mapper的输出是大量的>对(大于20)。我在某处读到，MR作业后生成的输出文件的数量等于reducer的数量，在我的例子中，reducer的数量大于20。但我在输出中得到了一个文件。然后我做了job.setNumReduceTasks(2)希望它会在输出中生成两个文件。但它仍然生成了一个文件。那么我可以得出输出文件数等于block数的结论吗？还有，是否将一个数据block馈送到一个Mapper？最佳答案 -block-物理分区:HDFS旨在保存和管理大量数据。默认block大

hadoop section block strong mapreduce

hadoop - 为什么 hadoop 输入和输出目录不可见？

我是hadoop的新手。我刚刚安装并开始使用它。一切都正常运行，但我无法在笔记本电脑中找到通过以下命令创建的input和output目录。hadoopfs-mkdir/home/hadoop/input和hadoopfs-mkdir/home/hadoop/output我想再说一遍，我可以对这些input和output目录进行操作，但是这些目录没有显示出来以下命令$ls/home/hadoop请回答为什么我看不到目录。谢谢.. 最佳答案命令hadoopfs-mkdir/home/hadoop/input在分布式文件系统上创建该目录

hadoop 为什么 strong section

hadoop - Sqoop 与 Informatica 大数据版本的数据来源对比

我可以选择使用Sqoop或Informatica大数据版将数据源导入HDFS。源系统是Tearadata、Oracle。我想知道哪个更好，以及背后的原因。注意:我当前的实用程序能够使用sqoop将数据拉入HDFS，创建Hive暂存表和归档外部表。Informatica是组织中使用的ETL工具。问候桑吉布最佳答案 SqoopSqoop能够从Oracle/Teradata执行完整和增量加载。Sqoop从源系统并行复制数据。Sqoop脚本可以由Oozie自定义生成和安排。适用于任何规模集群的开源解决方案。无许可费用。信息学ETL行业中管

大数 Informatica section Sqoop hadoop hive informatica-powercenter

hadoop - 有人可以建议 HBase 架构点击流数据吗

我想使用HBase创建一个点击流应用程序，在sql中这将是一个非常简单的任务，但在Hbase中我还没有得到第一条线索。有人可以建议我在HBase中使用的架构设计和key。我提供了一个粗略的数据模型和几个我想查询数据的问题。关于访问数据我想问的问题哪些事件导致了转化？最后一页是什么/浏览了多少页？客户离开了哪些页面？20-30岁的男性顾客喜欢买什么产品？客户购买了产品x也可能购买产品y？第一页的转化量？{PageViews:[{date:"1970010100:00",domain:"http://foobar.com",path:"pageOne.html",timeOnPage:"1

hadoop HBase 34 section pageViewNumber schema bigdata

hadoop - 具有 Hive 操作的 Oozie 工作流因权限问题而失败

我们有一个运行HDP2.2.0.0的Hadoop集群。我们有另一个运行HDP2.2.4.2的Hadoop集群。我们有一个带有Hive操作的Oozie工作流，它在第一个带有HDP2.2.0.0的集群上运行良好。但是在运行HDP2.2.4.2的第二个集群中，完全相同的工作流程失败，并出现以下错误:38098[main]INFOorg.apache.hadoop.hive.ql.Driver-Startingtask[Stage-4:MOVE]inserialmode2015-07-1516:23:22,810INFO[main]ql.Driver(Driver.java:launchTas

hadoop Oozie hive cloudfeeds 841777402951025944 mapreduce hortonworks-data-platform

hadoop - 替换 pig 中的字符

我的数据采用以下格式..{"Foo":"ABC","Bar":"20090101100000","Quux":"{\"QuuxId\":1234,\"QuuxName\":\"Sam\"}"}我需要它采用这种格式:{"Foo":"ABC","Bar":"20090101100000","Quux":{"QuuxId":1234,"QuuxName":"Sam"}}我正在尝试使用Pig的替换功能以我需要的格式获取它..所以，我试过了.."LOGS=LOAD'inputloc'USINGTextStorage()asunparsedString:chararray;;"+"REPL1=fo

hadoop pig 34 code section apache-pig azure-hdinsight

unix - 使用 SCP 将文件从 Windows 桌面移动到 vmware 上的 hadoop 沙箱

我认为这很简单，但非常感谢您的帮助。我的Windows桌面上有一个zip文件“RECEIPTS_LAB.zip”，我在vmware上运行一个hadoop沙箱。沙箱是我用mapr注册的培训类(class)的一部分，但我是初学者，不确定如何将zip文件从Windows移动到沙箱中的目录“/user/user01/3”手册使用如下代码scpRECEIPTS_LAB.zipuser01@node-ip:/user/user01/3node-ip是我在启动沙箱时得到的ip地址，假设它是192.168.88.128当我编写以下命令时:scpRECEIPTS_LAB.zipuser01@192.16

沙箱 Windows section user unix hadoop mapr

hadoop - 没有类名的 ClassNotFoundException

我尝试在jar中添加UDF并尝试加载。以下是我的片段register'target/warcbase-0.1.0-SNAPSHOT-fatjar.jar';DEFINEWarcLoaderorg.warcbase.pig.WarcLoader();warc=LOAD'/raw/'USINGWarcLoaderAS(url:chararray,date:chararray,mime:chararray,content:bytearray);STOREwarcINTO'/raw/proc/';我得到以下异常。不幸的是，它没有告诉我找不到哪个类。以下是整个堆栈跟踪Backenderrorme

类名 ClassNotFoundException java apache hadoop apache-pig hadoop2