Hadoop

unix - SSH 权限被拒绝错误

我正在尝试关注this文章但是但是我在尝试ssh进入数据节点服务器时遇到错误有什么问题吗？(这个命令就在hadoop之上)请帮我找出问题$ssh-vubuntu@ec2-xx-xx-xx-xxx.us-xxxxxx-2.compute.amazonaws.comdebug1:Readingconfigurationdata/home/ubuntu/.ssh/configdebug1:Readingconfigurationdata/etc/ssh/ssh_configdebug1:/etc/ssh/ssh_configline19:Applyingoptionsfor*debug1:C

shell - 如何在 OOZIE 中使用正则表达式？

我想检查文件是否存在于给定的HDFS位置。我们可以在fs:exists的帮助下检查文件是否存在于给定的HDFS位置，即如果文件名为test_25082016，在协调工作的帮助下，我们可以获得日期值，即在我们的示例中作为参数today。工作Proppath=/user/cloudera/file/input/test_在workflow.xml中${fs:exists(concat(concat(nameNode,path),today))}${fs:exists(concat(concat(nameNode,path),yesterday))}它按预期工作。但就我而言，我的HDFS位置

何在 shell code concat section hadoop oozie cloudera-cdh oozie-coordinator

hadoop - 可用于创建数据管道的不同工具

我需要在hadoop中创建数据管道。我有数据导入、导出、清理数据设置的脚本，现在需要在管道中进行设置。我一直在使用Oozie进行数据导入和导出计划，但现在还需要集成R脚本来进行数据清理过程。我看到falcon也用于相同的目的。如何在cloudera中安装falcon？还有哪些其他工具可用于在hadoop中创建数据管道？最佳答案 2)我很想回答Hortonworks的nifi，因为这个postonlinkedin它已经成长了很多，并且非常接近于取代oozie。当我写这个答案时，oozie和nifi之间的区别在于它们运行的地方:外

hadoop 可用 section 中创 cloudera data-pipeline

hadoop - 将日期 '11/2/2014' (mm/d/yyyy) 转换为配置单元中的时间戳

我想使用Hive将日期“11/2/2014”转换为时间戳。此日期为字符串格式。我尝试了很多方法，但我得到的是NULL值。最佳答案这是语法:CAST(FROM_UNIXTIME(UNIX_TIMESTAMP(,'MM/dd/yyyy'))asTIMESTAMP)您总是需要转到unix_timestamp，然后从unix时间戳转换为普通时间戳。它看起来不太好，但它确实有效。只是检查一下，可能是您的语法正确但格式错误。也许您的格式是dd/MM/yyyy？这就是为什么你应该让我们尝试让它下次工作的原因。

配置单 amp section stackoverflow TIMESTAMP hadoop hive

scala - 使用 SqlContext 连接 Hive 表

我的问题对你们大多数人来说可能听起来很愚蠢，但我需要使用spark-scala在我的配置单元表中执行一些操作，为此我想知道我是否可以使用SqlContext来读取hive表。我知道HiveContext但我想使用SqlContext。最佳答案正如评论中提到的@BinaryNerd:HiveContextextendsSQLContext所以当你使用类型安全的语言(Java)时，你可以这样声明你的SQLContext:SQLContextsqlContext=newHiveContext(sc)

SqlContext scala code section HiveContext hadoop apache-spark hive

hadoop - Hive外部表能否智能识别分区？

每当我需要挂载分区时，我都需要运行它。有没有一种方法可以自动检测外部配置单元表中的分区，而不是我手动执行它ALTERTABLETableNameADDIFNOTEXISTSPARTITION()location'locationpath'; 最佳答案恢复分区(MSCK修复表)https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-RecoverPartitions(MSCKREPAIRTABLE)MSCKREPAIR

hadoop Hive section LanguageManualDDL-RecoverPartitio https bigdata

hadoop - pig 是否支持 NOT IN 子句？

我在PIG中使用了In子句作为emp=FILTERemployee_tableBYemployee_idIN('873','809','819','829');现在我需要使用NOTIN子句no_emp=FILTERemployee_tableBYemployee_idNOTIN('873','809','819','829');产生错误为2016-08-2913:22:46,165[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Syntaxerror,unexpectedsymbolatornear'NOT'有没有其他方法可以

hadoop NOT 39 section employee apache-pig

scala - Spark - 另一个转换中的 Rdd 转换

我试图在另一个转换中转换RDD。因为，RDD转换和操作只能由驱动程序调用，我收集了第二个RDD并尝试在其他转换中对其应用转换，如下所示valname_match=first_names.map(y=>(y,first_names_collection.value.filter(z=>soundex.difference(z,y)==4)))上面的代码抛出了下面的异常org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.ApplicationAttemptNotFoundException):App

scala Spark code section first_names_collection hadoop apache-spark rdd

hadoop - 是否为 Oozie 操作配置队列可选

我正在浏览大量Oozie示例，我最感兴趣的三个操作是Sqoop、Hive和Pig操作。在某些示例中，mapreduce.job.queuename属性(旧版本为mapred.queue.name)通常配置为default，例如这个:...mapreduce.job.queuenamedefault另一方面，其他示例没有指定任何队列(也没有指定全局配置)。是否需要配置队列？如果我没有指定会发生什么？最佳答案 Doesconfiguringthequeuenecessary?否没有必要。WhatwouldhappenifIdidn't

hadoop Oozie section code blockquote

hadoop - 在 spark 中使用 hadoop 配置连接到 Hbase

我正在尝试在spark的MapPartitionFunction中创建hbase连接。Causedby:java.io.NotSerializableException:org.apache.hadoop.conf.Configuration我试过下面的代码SparkConfconf=newSparkConf().setAppName("EnterPriseRiskScore").setMaster("local");conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer");conf.set("s

hadoop Hbase section hbaseConfiguration 34 apache-spark apache-spark-sql spark-dataframe

55 56 575859 60 61