hadoop-mapreduce

hadoop - 将数据写入hadoop的最有效方式

我是HadoopHDFS的新手。我正在尝试学习如何将从本地文件读取的数据写入hadoopHDFS。我想知道如何高效地写作。请帮忙最佳答案你可以这样试试hadoopfs-putlocalpathhdfspath示例hadoopfs-put/user/sample.txt/sample.txt你可以google它来找到更多的hdfs命令。引用here 关于hadoop-将数据写入hadoop的最有效方式，我们在StackOverflow上找到一个类似的问题：

hadoop - 我尝试启动 HBase

我尝试运行start-hbase.sh。但是……dream@dream-VirtualBox:/usr/local/hbase/bin$cat~/.bashrc|tail-n2exportPATH=$PATH:/usr/local/hadoop/sbin/:/usr/local/hadoop/bin/:/usr/local/hbase/bin/:/usr/local/mahout/bin/exportJAVA_HOME=/usr/lib/jvm/java-7-oracledream@dream-VirtualBox:/usr/local/hbase/bin$source~/.bashr

hadoop HBase local usr

windows - 在 Windows 7 上构建 Hadoop，无法复制文件

试图在Windows上安装hadoop2.7.1，这是一场噩梦，但终于到了分发部分无法构建的部分。似乎无法弄清楚为什么它不会复制文件，堆栈跟踪如下:(这也是权限错误吗？)main:Property"@"hasnotbeensetProperty"@"hasnotbeenset[exec]CurrentOSisWindows7[exec]Executing'sh'witharguments:[exec]'./dist-layout-stitching.sh'[exec][exec]The'charactersaroundtheexecutableandargumentsare[exec]

windows hadoop apache java

hadoop - Tableau、Hadoop 和 Birt

我试图将数据从SQL数据库迁移到Hadoop。我已经通过配置Hive、HBase和Hadoop成功地做到了这一点。我的问题是，我将Birt&Tableau与我的SQL数据库一起使用，并且能够在5-10分钟内加载1000万条数据，但我新配置的Hadoop、Hive和HBase系统需要大约50分钟才能获取1000万条条目.我怎样才能提高这种性能？Hadoop是专门为海量数据处理而开发的，为什么我做不到？性能有什么特殊配置吗？最佳答案经过大量研究并为了回答这个问题，我也通过了HDP。然后我遇到一个场景，我们无法比较SQLDb和Hado

Tableau hadoop section SQL hive hbase birt tableau-api

hadoop - 记录对于内存缓冲区来说太大。通过 TEZ 使用 Hive 的 ORC 表时出错

我们正在尝试从HIVE(1.2.1)中的“ORC”表中读取数据，并将该数据放入带有“TextInputFormat”的表中。原始数据中的某些条目太大，在运行过程中出现以下错误:org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.tez.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallException:Recordtoolargeforin-memorybuffer.Exceededbufferoverflowlimit,bufferOv

时出 hadoop section code hive orc tez

hadoop - Flume-NG:如何使用 Flume-ng 自动读取目录中新添加的文件(Flume 代理的来源)

spooldir选项用于流式传输特定目录的所有文件。完成整个目录读取后，作业将暂停/停止。但是，如果我想将新文件添加到同一目录中，会发生什么？？我的要求是在任何新文件添加到该特定spooldir文件夹时流式传输该目录。请指教!!!提前致谢。最佳答案假脱机目录源将在文件出现在目录中时继续读取文件，它不会在处理flume启动时存在于目录中的文件集后暂停。这就是文档所说的“此源允许您通过将要摄取的文件放入磁盘上的“假脱机”目录来摄取数据。此来源将监视指定目录中的新文件，并在新文件出现时解析事件。”

Flume 中新 section 流式摄取 hadoop streaming flume-ng

hadoop - 何时使用压缩

问题在标题中——什么时候使用压缩比较好？好的，我的意思是处理速度更快。我的管道由多个MR作业组成，中间结果存储在序列文件中。数据是数字-时间序列。此外，碰巧一项工作的输出与输入的大小相同。因此，传输/存储的数据可能很大。我想知道我是否可以预期由于压缩而加速，或者压缩/解压缩数据需要更多时间？最佳答案使用快速编解码器(readsnappy)启用中间数据压缩几乎总是一个好主意。即使您的数据不可压缩，您也不会受到太多惩罚。关于hadoop-何时使用压缩，我们在StackOverflow上

何时 hadoop section stackoverflow 作业组 serialization compression

hadoop - 粘性位设置 hive 执行失败拒绝权限

当我试图在形成桶表的过程中触发一个sql命令时我收到以下错误，我明白因为正在执行的进程是配置单元但/tmp归mapred所有，所以它导致了问题。但我不知道如何解决我应该在哪里更改的问题。请帮助我的人Permissiondeniedbystickybitsetting:user=ras,inode=bucked_sampleFailedwithexceptionUnabletomovesourcehdfs://roax:8020/tmp/hive-training/hive_2016-02-16_03-29-10_837_2599907748984819467-1/-ext-10000t

hadoop hive section bucked_sample cloudera cloudera-cdh

oracle - 将数据从 Oracle 提取到 Hadoop。 Sqoop 是个好主意吗

我想从Oracle数据库中提取一些数据并将其传输到远程HDFS文件系统。似乎有几种可能的方法可以实现这一点:使用Sqoop。该工具将提取数据，通过网络复制并直接存储到HDFS使用SQL读取数据并将其存储在本地文件系统中。完成后，将数据复制(ftp？)到Hadoop系统。我的问题是第一种方法(对我来说不太有效)会导致Oracle锁定表的时间超过所需时间吗？我担心的是，当Sqoop开始查询数据时，它可能会在数据库上锁定，并且在所有数据都复制到HDFS之前不会释放此锁定。由于我将提取大量数据并将其复制到远程位置(因此会有显着的网络延迟)，锁将保持比其他方式所需的更长的时间。

oracle section Sqoop 并将 hadoop sqoop2

hadoop - 如何通过grafana(opentsdb)监控dfs.namenode.handler.count？

像这样？picture我的问题是是否也有像RedMashine中那样的指标。它的名字是什么？或者我是否应该定义一个指标？这该怎么做？谢谢! 最佳答案 Grafana2.5的Opentsdb查询编辑器默认启用建议。因此，当您开始键入任何指标的名称或什至尝试将光标放在文本框中时，您将看到指标名称的建议。如果您使用的是Grafana2.5之前的旧版本。那么您将必须在提到的Opentsdb中启用某些属性here在文档中。关于hadoop-如何通过grafana(opentsdb)监控dfs.n

opentsdb namenode section noreferrer noopener hadoop hdfs hadoop2 grafana

159 160 161162163 164 165