草庐IT

BASH_SOURCE

全部标签

hadoop - 使用 zkcli.sh bash 通过 oozie shell 操作将 solr 配置从 hdfs 发送到 zookeeper

每次我尝试将solr配置发送给zookeeper时,我都会在下面遇到异常。作为confdir,我输入了这个地址:“hdfs://some_address/user/Peter/dir_with_date”。在bash脚本后面的jars中实现时,我看到有一个Paths.get方法,它将我的带有配置的字符串转换为没有双斜杠的字符串(“hdfs:/some_ad...”)。Exceptioninthread"main"java.io.IOException:Pathhdfs:/some_address/user/Peter/dir_with_datedoesnotexistatorg.apa

bash - $"${@///\\}"在 bash 中是什么意思?

当我阅读一个Hadoop部署脚本时,我发现了以下代码:ssh$HADOOP_SSH_OPTS$slave$"${@///\\}""${@///\\}"input是一个简单的shell命令(参数扩展)。为什么要添加$在这个命令之前?这是什么$""意思? 最佳答案 这段代码只是有问题:它打算转义本地脚本的参数列表,以便可以通过ssh传输带空格的参数,但它做得很糟糕(缺少某些类型的空格——以及许多类别的元字符——以可利用的方式),并使用$""语法(执行翻译表查找)而没有任何可理解的理由。错误的事情(又名:它应该做什么,以及它是如何失败的)

bash - 将参数从 shell 脚本传递到 hive 脚本

我有一个问题可以分为两种方式:我的要求是将参数从shell脚本传递到hive脚本。要么在一个shell脚本中,我应该在配置单元语句中包含变量的值。我将用一个例子来解释这两者:1)从shell脚本传递参数到hiveQL->MytestHiveQL:selectcount(*)fromdemodb.demo_tablelimit${hiveconf:num}我的测试shell脚本:cnt=1sh-c'hive-hiveconfnum=$cnt-fcountTable.hql'所以基本上我想在HQL中包含“cnt”的值,在这种情况下不会发生这种情况。我得到的错误是:FAILED:ParseE

scala - 创建像 TextLine 这样的 Scalding Source,将多个文件组合成单个映射器

我们有很多小文件需要合并。在Scalding中,您可以使用TextLine将文件读取为文本行。问题是我们每个文件有1个映射器,但我们想要组合多个文件,以便它们由1个映射器处理。我知道我们需要将输入格式更改为CombineFileInputFormat的实现,这可能涉及使用级联CombinedHfs。我们不知道如何做到这一点,但它应该只是几行代码来定义我们自己的Scalding源,例如CombineTextLine。非常感谢任何可以提供代码的人。作为附带问题,我们在s3中有一些数据,如果给定的解决方案适用于s3文件,那就太好了——我想这取决于CombineFileInputFormat还

bash - 使用 Amazon MapReduce/Hadoop 进行图像处理

我有一个项目需要我处理大量(1000-10000)大(100MB到500MB)图像。我正在进行的处理可以通过Imagemagick完成,但我希望实际上是在Amazon的ElasticMapReduce平台(我相信该平台使用Hadoop运行)上进行处理。在我找到的所有示例中,它们都处理基于文本的输入(我发现WordCount样本有十亿次)。我找不到任何有关Hadoop此类工作的信息:从一组文件开始,对每个文件执行相同的操作,然后将新文件的输出作为它自己的文件写出。我很确定这可以用这个平台来完成,并且应该可以用Bash来完成;我认为我不需要费心去创建整个Java应用程序或其他东西,但我可能

bash - hadoop中的批量重命名

如何将hdfs目录中的所有文件重命名为.lzo扩展名?.lzo.index文件不应重命名。例如,这个目录列表:file0.lzofile0.lzo.indexfile0.lzo_copy_1可以重命名为:file0.lzofile0.lzo.indexfile0.lzo_copy_1.lzo这些文件是lzo压缩的,我需要它们具有.lzo扩展名才能被hadoop识别。 最佳答案 如果您不想为此编写Java代码-我认为使用命令行HDFSAPI是您最好的选择:mvinHadoophadoopfs-mvURI[URI…]您可以使用一个小的衬

bash - Hadoop 和 Bash : delete filenames matching range

假设您在HDFS中有一个文件列表,其中包含一个公共(public)前缀和一个递增的后缀。例如,part-1.gz,part-2.gz,part-3.gz,...,part-50.gz我只想在目录中留下几个文件,比如3个。任何三个文件都可以。这些文件将用于测试,因此文件的选择无关紧要。删除其他47个文件的最简单、最快的方法是什么? 最佳答案 这里有几个选项:手动将三个文件移至新文件夹,然后删除旧文件夹。使用fs-ls获取文件名,然后拉出前n个,然后rm它们。在我看来,这是最可靠的方法。hadoopfs-ls/path/to/files

maven - 为什么 Maven 试图将我的代码编译为 -source 1.3?

我在Ubuntu12.04中收到此错误mvn-epackage:[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:2.0.2:compile(default-compile)onprojectHadoopSkeleton:Compilationfailure:Compilationfailure:[ERROR]/home/jesvin/dev/hadoop/HadoopMahoutSkeleton-master/src/main/java/HadoopSkeleton/App.java:[2

bash - 最近 24 小时从 HDFS 中的多个目录复制文件到本地

我在从HDFS获取数据到本地时遇到问题。我有例如:/path/to/folder/report1/report1_2019_03_24-03_10*.csv/path/to/folder/report1/report1_2019_03_24-04_12*.csv.../path/to/folder/report1/report1_2019_03_25-05_12*.csv/path/to/folder/report1/report1_2019_03_25-06_12*.csv/path/to/folder/report1/report1_2019_03_25-07_11*.csv/pa

implementation - Hadoop MR source : HDFS vs HBase. 各有什么好处?

如果我正确理解Hadoop生态系统,我可以运行我的MapReduce作业,从HDFS或HBase获取数据。假设之前的假设是正确的,我为什么要选择一个而不是另一个?使用HBase作为MR源在性能、可靠性、成本或易用性方面是否有优势?我能找到的最好的引用是这句话,“HBase是当您需要对非常大的数据集进行实时读/写随机访问时使用的Hadoop应用程序。”-TomWhite(2009)Hadoop:权威指南,第1版 最佳答案 在HDFS上直接使用HadoopMap/Reduce,您的输入和输出通常存储为平面文本文件或HadoopSeque