草庐IT

LOAD_DEFAULT

全部标签

hadoop - 错误 : Could not find or load main class org. apache.hadoop.util.VersionInfo

您好,我刚刚开始学习Hadoop。我正在关注“Hadoop权威指南”一书。按照本书的“附录A”在Window7中设置Hadoop时,出现错误“错误:无法找到或加载主类org.apache.hadoop.util.VersionInfo”当我运行命令时hadoop版本任何人都可以知道如何更正此问题或告诉我我缺少什么吗?我正在使用Cygwin64。 最佳答案 如果您在hadoop-config.sh的末尾添加以下行(在HADOOP_INSTALL\libexec中可用),它应该可以工作。CLASSPATH='cygpath-wp"$CL

hadoop - HBase ERROR : hbase-default. xml 文件似乎是针对旧版本的 HBase (null)

我正在尝试编写一个程序来连接到HBase。但是当我执行以下命令时HBaseConfiguration.create();我收到以下错误:."hbase-default.xml文件似乎是旧版本的HBase(null),这个版本是0.92.1-cdh4.1.2。当我深入挖掘并在内部进行调试时,请观察以下内容:classHBaseConfigurationprivatestaticvoidcheckDefaultsVersion(Configurationconf){if(conf.getBoolean("hbase.defaults.for.version.skip",Boolean.FA

hadoop - Pig 如何在 'load' 语句中使用 Hadoop Glob?

因为我notedpreviously,Pig不能很好地处理空(0字节)文件。不幸的是,有很多方法可以创建这些文件(甚至是withinHadooputilitities)。我认为我可以通过在LOADstatement中显式加载与给定命名约定匹配的文件来解决这个问题。使用Hadoop'sglobsyntax.不幸的是,这似乎不起作用,因为即使我使用glob过滤已知良好的输入文件,我仍然遇到0字节故障mentionedearlier.这是一个例子:假设我在S3中有以下文件:mybucket/a/b/(0字节)mybucket/a/b/myfile.log(>0字节)mybucket/a/b/

hadoop - 在 core-site.xml 中设置 fs.default.name 将 HDFS 设置为安全模式

我在一台机器上以伪分布式模式安装了ClouderaCDH4发行版并成功测试它是否正常工作(例如可以运行MapReduce程序,在Hive服务器上插入数据等)但是,如果我有机会core-site.xml文件将fs.default.name设置为机器名而不是localhost并重启NameNode服务,HDFS进入安全-模式。在更改fs.default.name之前,我运行了以下命令来检查HDFS的状态:$hadoopdfsadmin-report...ConfiguredCapacity:18503614464(17.23GB)PresentCapacity:13794557952(12

join - 配置单元外部连接 : how to change the default NULL value

对于hive外连接,如果一张表中不存在连接键,hive将置为NULL。是否可以为此使用其他值?例如:表1:user_id,name,age1Bob232Jim43表2:user_id,txn_amt,date120.002013-12-10110.002014-07-01如果我对user_id执行LEFTOUTERJOIN:INSERTINTOTABLEuser_txnSELECTTable1.user_id,Table1.name,Table2.txn_amt,Table2.dateFROMTable2LEFTOUTERJOINTable1ONTable1.user_id=Table

hadoop - 错误修复后仍然得到 "Unable to load realm info from SCDynamicStore"

我使用brewinstallhadoop和brewinstallpig安装了Hadoop和Pig。我读了here您将收到UnabletoloadrealminfofromSCDynamicStore错误消息,除非您添加:exportHADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK-Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk"到你的hadoop-env.sh文件,我有。但是,当我运行hadoopnamenode-format时,我仍然看到:java[1548:1703]Unable

hadoop - 为什么 ./bin/spark-shell 给出 WARN NativeCodeLoader : Unable to load native-hadoop library for your platform?

在MacOSX上,我使用以下命令从源代码编译了Spark:jacek:~/oss/spark$SPARK_HADOOP_VERSION=2.4.0SPARK_YARN=trueSPARK_HIVE=trueSPARK_GANGLIA_LGPL=truexsbt...[info]Setcurrentprojecttoroot(inbuildfile:/Users/jacek/oss/spark/)>;clean;assembly...[info]Packaging/Users/jacek/oss/spark/examples/target/scala-2.10/spark-example

hadoop - pig 拉丁语 : Load multiple files from a date range (part of the directory structure)

我有以下场景-pig版使用0.70示例HDFS目录结构:/user/training/test/20100810//user/training/test/20100811//user/training/test/20100812//user/training/test/20100813//user/training/test/20100814/正如您在上面列出的路径中看到的,其中一个目录名称是一个日期戳。问题:我想加载日期范围为20100810到20100813的文件。我可以将日期范围的“从”和“到”作为参数传递给Pig脚本,但我如何在LOAD语句中使用这些参数。我能够做到以下几点te

performance - spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别?

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?我在SparkSQL中都尝试过设置,但是第二阶段的任务数一直是200。 最佳答案 来自答案here,spark.sql.shuffle.partitions配置在为连接或聚合改组数据时使用的分区数。spark.default.parallelism是RDD中的默认分区数s由join等转换返回,reduceByKey,和parallelize当用户未明确设置时。注意spark.default.parallelism似

macos - OSX 上的 Hadoop "Unable to load realm info from SCDynamicStore"

我在OSX10.7上启动Hadoop时遇到此错误:UnabletoloadrealminfofromSCDynamicStoreput:org.apache.hadoop.hdfs.server.namenode.SafeModeException:Cannotcreatedirectory/user/travis/input/conf.Namenodeisinsafemode.它似乎不会导致Hadoop的功能出现任何问题。 最佳答案 MatthewBuckett在HADOOP-7489中的建议对我有用。将以下内容添加到您的hado