我们

hadoop - 我们如何为 HDFS(Hadoop 分布式文件系统)开发代理

我正在进行一个研究项目，我需要为HDFS创建某种代理，这样我们就可以捕获对HDFS的调用，并在将其返回给用户之前应用一些访问/拒绝(文件)策略。对于像HttpFs和WebHDFS这样的HDFS接口(interface)，很容易设计代理系统，因为它们使用HTTP与客户端通信。但是HDFS驱动程序使用使用ProtocolBuffer定义的协议(protocol)在客户端和名称节点之间进行通信。HDFS代码中是否有任何钩子(Hook)来设计围绕HDFS本机协议(protocol)的代理。Hadoop版本为2.6。最佳答案 Apach

何为 hadoop section HDFS stackoverflow proxy protocol-buffers webhdfs

hadoop - 我们可以在 pig 中通过::分隔符拆分文件列吗

我正在尝试读取一个分隔符为双冒号(::)的文件。我正在使用CSVExcelStorage，但它给出的错误如下:couldnotinstantiate'org.apache.pig.piggybank.storage.CSVExcelStorage'witharguments'[::]'那么有什么方法可以使用自定义分隔符读取文件吗？最佳答案您可以使用PigStorage使用您的自定义分隔符。关于hadoop-我们可以在pig中通过::分隔符拆分文件列吗，我们在StackOverflo

中通 hadoop section 自定 CSVExcelStorage apache-pig

sql-server - 我们可以使用 PostgreSQL 和 PolyBase 来连接 Hadoop 吗？

微软终于进军大数据领域，推出了PolyBase接口(interface)来连接Hadoop，让现有的MSSQLServer用户可以利用Hadoop生态系统存储大量数据。这里我有1个问题，我们可以使用postgreSQL而不是MSSQLServer来使用最近随MSSQLServer2016发布的PolyBase接口(interface)连接Hadoop。我知道还有很多其他方法可以做到这一点，但想特别了解如何使用PolyBase(PDW)。实际上，我的公司总是欢迎微软作为基于其平台的大部分应用程序参与的解决方案。我知道使用PolyBase并行数据仓库是可能的，但需要一些提示才能做到这一点。

sql-server PostgreSQL section PolyBase Server hadoop hortonworks-data-platform azure-hdinsight

mysql - 我们可以在 Sqoop 中控制 $CONDITIONS 吗？

$Conditions根据自己决定的占位符将自由格式查询分成不同的拆分。比如说，我们有一个查询，它给出了1000条记录的结果。默认情况下，它会被$CONDITIONS分成4个不同的边界条件查询(1,250)(251,500)(501,750)and(751,1000).我们可以做些什么来根据我们的要求实现查询拆分？最佳答案您不能选择查询分区偏移量。您可以控制两件事:--boundary-query用于创建拆分。--num-mappers用于控制拆分次数。显然--split-by专栏。为每个拆分选择边界听起来是个好主意。但从数据中

中控 CONDITIONS section code strong mysql hadoop sqoop

当我们谈到RPC时，我们是否指窗户上的特定技术？

我与同事对RPC一词有不同的看法。我们俩都知道RPC是远程过程调用。他说，RPC指的是Windows技术的特定术语。我认为这是一个更一般和抽象的概念。我认为SOAP，DCOM，COBRA，XML-RPC，WCF是RPC的一种形式，因为有许多不同的语言/平台，并且可能基于HTTP或TCP。只有在远程调用的情况下才能将其视为RPC。虽然我也不确定或不清楚。有人可以为我澄清这个缩写的范围吗？看答案这既是通用术语，又指Windows和Unix中的特定（较旧）技术。您必须从上下文中推断。“远程”部分也有些模棱两可。它可以参考从一个过程中的呼叫到同一主机上的另一个过程，并致电完全不同的主机。

我们谈到 section RPC 远程

hadoop - 为什么我们不能在 Hadoop 中计算作业执行时间？

我的问题与散兵游勇问题有关。在排序上，它是一种算法，我们可以知道它的复杂性，并计算在一组常量数据上执行时的运行时间。为什么我们无法在Hadoop中获取作业执行时间？如果我们能够获取作业执行时间或任务执行时间，我们就可以快速知道哪些是散乱的任务，而不需要算法来知道哪个任务是散乱的。最佳答案作业执行时间或任务执行时间将在作业跟踪器webUI中可用。希望这就是您要查找的内容。WebUI将在作业跟踪器的50030端口可用。如果它是基于Yarn设置url为http://:8088 关于hado

中计算作 section 跟踪器散乱 hadoop mapreduce job-scheduling

java - 为什么我们需要在 MapReduce 作业中显式设置 OutputKey/InputKey 类？

当Map和Reduce类必须尊重地扩展Mapper和Reducer类时，为什么我们需要在MapReduce作业中显式设置OutputKey/InputKey类，这需要添加？一个例子:工作session:job.setOutputKeyClass(NullWritable.class);job.setOutputValueClass(Text.class);job.setOutputFormatClass(TextOutputFormat.class);reducer:publicstaticclassComputeReducerextendsReducer{如果我们已经显式设置redu

MapReduce OutputKey section code Text java hadoop

hadoop - 如果我们使用Sqoop从MySql导入数据到HDFS，HDFS存储的文件格式是什么？

如果我们使用Sqoop从MySql导入数据到HDFS，HDFS存储的文件格式是什么最佳答案 Sqoop已将您的数据导入为逗号分隔的文本文件。它支持许多其他文件格式，可以使用下面列出的参数激活控制导入命令文件格式的mSqoop参数参数--as-avrodatafileDataisimportedasAvrofiles.--as-sequencefileDataisimportedasSequenceFiles.--as-textfileThedefaultfileformat,withimporteddataasCSVtextfil

HDFS hadoop section imported

hadoop - 为什么我们在hadoop中使用分布式缓存？

无论如何，mapreduce框架中有很多跨节点的文件传输。那么分布式缓存的使用是如何提高性能的。最佳答案 DistributedCache是Map-Reduce框架提供的一种设施，用于缓存应用程序所需的文件。一旦你为你的工作缓存了一个文件，hadoop框架将使它在你运行映射/reducetask的每个数据节点(在文件系统中，而不是在内存中)上可用。文件通过网络传输，通常通过HDFS。与将HDFS用于任何非数据本地任务相比，它不会对网络造成更多压力。关于hadoop-为什么我们在had

hadoop 为什么 section stackoverflow mapreduce hdfs reduce distributed-cache

hadoop - 我们必须将数据上传到哪个slave到hadoop集群

我们已经用2台机器设置了hadoop集群，我们正在尝试在我们的实时项目中实现集群，我们需要多节点集群中关于上传数据的信息，假设如果我有9个数据节点，哪个从节点我们需要上传数据。我可以选择将数据上传到2个从属节点吗，如果我将数据上传到hdfs，它是否会复制到另一个从属节点？正如我们观察到的，当前使用/tmp位置的hdfs如果/tmp已满，HDFS将使用哪个位置。最佳答案添加更多的集群的目的是为了扩大数据存储..您是否正在寻找安全的集群，向某些用户授予权限以将数据上传到HDFS？对If表示可以实现KERBEROS原则或者授权用户上传

hadoop 传到 section strong hdfs apache-hive

92 93 949596 97 98