草庐IT

load_dataset

全部标签

regex - 使用 REGEX 在 Hive Create 和 Load Query 中获取空值

我有一个日志文件,我需要在其中使用REGEX存储数据。我尝试了下面的查询,但加载了所有NULL值。我已经用http://www.regexr.com/检查了正则表达式,它对我的​​数据工作正常。CREATEEXTERNALTABLEIFNOTEXISTSavl(imeiSTRING,packetSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="(IMEI\\s\\d{15}(\\b(\\d{15})([A-Z0-9]+)))"

hadoop - WARN util.NativeCodeLoader : Unable to load native-hadoop library for your platform. .. 在适用的情况下使用内置 java 类

alpesh@alpesh-Inspiron-3647:~/hadoop-2.7.2/sbin$hadoopfs-ls16/07/0513:59:17警告util.NativeCodeLoader:无法为您的平台加载nativehadoop库...在适用的情况下使用内置java类它还向我展示了如下输出hadoop检查native-a16/07/0514:00:42警告util.NativeCodeLoader:无法为您的平台加载nativehadoop库...在适用的情况下使用内置java类native库检查:hadoop:错误zlib:错误活泼:假lz4:假的bzip2:错误open

hadoop - "Unable to load realm mapping info from SCDynamicStore"错误后跟 KrbException

我正在尝试在本地构建我的应用程序并收到以下错误:**UnabletoloadrealmmappinginfofromSCDynamicStore**2012-12-0318:13:23.910java[1172:707]***Terminatingappduetouncaughtexception'JavaNativeException',reason:'KrbException:CouldnotloadconfigurationfromSCDynamicStore'***Firstthrowcallstack:(0CoreFoundation0x00007fff919c30a6__e

hadoop - 错误 : Could not find or load main class org. apache.hadoop.util.VersionInfo

您好,我刚刚开始学习Hadoop。我正在关注“Hadoop权威指南”一书。按照本书的“附录A”在Window7中设置Hadoop时,出现错误“错误:无法找到或加载主类org.apache.hadoop.util.VersionInfo”当我运行命令时hadoop版本任何人都可以知道如何更正此问题或告诉我我缺少什么吗?我正在使用Cygwin64。 最佳答案 如果您在hadoop-config.sh的末尾添加以下行(在HADOOP_INSTALL\libexec中可用),它应该可以工作。CLASSPATH='cygpath-wp"$CL

hadoop - Pig 如何在 'load' 语句中使用 Hadoop Glob?

因为我notedpreviously,Pig不能很好地处理空(0字节)文件。不幸的是,有很多方法可以创建这些文件(甚至是withinHadooputilitities)。我认为我可以通过在LOADstatement中显式加载与给定命名约定匹配的文件来解决这个问题。使用Hadoop'sglobsyntax.不幸的是,这似乎不起作用,因为即使我使用glob过滤已知良好的输入文件,我仍然遇到0字节故障mentionedearlier.这是一个例子:假设我在S3中有以下文件:mybucket/a/b/(0字节)mybucket/a/b/myfile.log(>0字节)mybucket/a/b/

hadoop - 警告 snappy.LoadSnappy : Snappy native library not loaded

无论我做什么,我都无法摆脱这个错误。我知道snappy是一个快速的压缩/解压缩库,因此比其他选项更可取。我想使用这个库进行处理。据我所知,Google在内部将其用于他们的BigTables、MapReduce(基本上用于他们所有的killer级应用程序)。我自己做了研究。人们建议不要使用它,或者将java-snappy作为一个选项,但我想坚持使用hadoopsnappy。我的设置中有相应的库。(我是说在lib下)有人可以修复这个错误吗?我看到无论此错误如何,作业都已成功完成。****hdfs://localhost:54310/user/hduser/gutenberg12/06/01

hadoop - 错误修复后仍然得到 "Unable to load realm info from SCDynamicStore"

我使用brewinstallhadoop和brewinstallpig安装了Hadoop和Pig。我读了here您将收到UnabletoloadrealminfofromSCDynamicStore错误消息,除非您添加:exportHADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK-Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk"到你的hadoop-env.sh文件,我有。但是,当我运行hadoopnamenode-format时,我仍然看到:java[1548:1703]Unable

hadoop - 为什么 ./bin/spark-shell 给出 WARN NativeCodeLoader : Unable to load native-hadoop library for your platform?

在MacOSX上,我使用以下命令从源代码编译了Spark:jacek:~/oss/spark$SPARK_HADOOP_VERSION=2.4.0SPARK_YARN=trueSPARK_HIVE=trueSPARK_GANGLIA_LGPL=truexsbt...[info]Setcurrentprojecttoroot(inbuildfile:/Users/jacek/oss/spark/)>;clean;assembly...[info]Packaging/Users/jacek/oss/spark/examples/target/scala-2.10/spark-example

hadoop - pig 拉丁语 : Load multiple files from a date range (part of the directory structure)

我有以下场景-pig版使用0.70示例HDFS目录结构:/user/training/test/20100810//user/training/test/20100811//user/training/test/20100812//user/training/test/20100813//user/training/test/20100814/正如您在上面列出的路径中看到的,其中一个目录名称是一个日期戳。问题:我想加载日期范围为20100810到20100813的文件。我可以将日期范围的“从”和“到”作为参数传递给Pig脚本,但我如何在LOAD语句中使用这些参数。我能够做到以下几点te

macos - OSX 上的 Hadoop "Unable to load realm info from SCDynamicStore"

我在OSX10.7上启动Hadoop时遇到此错误:UnabletoloadrealminfofromSCDynamicStoreput:org.apache.hadoop.hdfs.server.namenode.SafeModeException:Cannotcreatedirectory/user/travis/input/conf.Namenodeisinsafemode.它似乎不会导致Hadoop的功能出现任何问题。 最佳答案 MatthewBuckett在HADOOP-7489中的建议对我有用。将以下内容添加到您的hado