Unix-ish

bash - 使用 unix grep 指定时间范围

您好，我在hdfs中的文件很少，现在我必须提取特定范围内的文件。我怎样才能使用unixgrep命令做到这一点？我的hdfs看起来像这样:-rw-rw-r--3pscorehdpdevs944612014-12-1002:08/data/bus/pharma/shared/purch/availability_alert/proc/2014-12-10_02-07-12-0-rw-rw-r--3pscorehdpdevs9744222014-12-1102:08/data/bus/pharma/shared/purch/availability_alert/proc/2014-12-11

bash unix 2014 12 section hadoop

unix - 使用 Unix 遍历目录及其子目录中的所有文件

我必须使用Unix遍历目录中的所有文件并找出从时间范围创建的文件。这是我正在尝试的命令。但不知何故，它并没有列出目录中的所有文件。`hadoopfs-ls$a$slash$star|awk'$6FS$7>="2014-12-1109:00"&&$6FS$7这里$a是我提到目录名称的变量。$斜杠有/$start有*谁能帮我解决这个问题？最佳答案我不知道“hadoopfs...”命令直接包含任何通配符(也就是说，*可能不起作用)。您可以试试:hadoopfs-ls-R/your/dir/path这应该显示/your/dir/path

子目子目录 section hadoop 2014 unix

unix - 用于创建 HDFS 目录和配额设置的自动化 shell 脚本

我在具有ambari2.1和HDP2.3的hortonworks中设置了一个集群。我必须创建一个自动脚本来创建HDFS目录和配额设置。任何人有与此相关的任何类型的脚本或任何类型的建议，请在此处发布。最佳答案下面是我的脚本:#!/bin/bashread-p"EnterUserName:"usernameecho"Welcome$username!"read-s-p"EnterPassword:"pswdecho$pswdhdfsdfs-mkdir/$1hdfsdfs-mkdir/$2hdfsdfs-mkdir/$3hdfsdfs

shell unix hdfs section dfs hadoop

unix - 使用外部 HDD 上的虚拟机作为 Hadoop 集群的节点

我是Hadoop和虚拟机(VM)的新手。我想要一个有4-5个节点的Hadoop集群。我的理解是每个节点都是商品硬件(运行Unix的PC)。我的想法是，是否可以在外部HDD上创建4-5个虚拟机(VM)，并将它们用作Hadoop集群的节点，并在其上安装大数据应用程序？如果是这样，实现这个基于VM的Hadoop集群的一般步骤是什么？最佳答案那显然是错误的。集群的思想是通过使用多个物理机器来增加可用的计算能力，并让它们以允许整体问题在它们之间拆分的方式进行通信。现在，如果您只是在同一台物理PC上使用四个或五个虚拟机，那么您获得的CPU能

Hadoop unix section 的 virtual-machine

mysql - 按 unix 时间戳的 Hive 动态分区

我正在Hive中创建一个表，运行一个映射器转换，然后保存一个表。我想根据运行Hive查询的时间对表进行分区。我创建表:CREATEEXTERNALTABLEIFNOTEXISTStesttable(test_testSTRING)PARTITIONEDBY(timeSTRING)LOCATION'loc/table';然后在尝试此操作时运行转换并保存表:FROM(MAPone.test_testUSING'pythonjob.py'AStest1FROMone)test_stepINSERTOVERWRITETABLEtesttablePARTITION(time=unix_times

mysql Hive test section timestamp hadoop amazon-web-services partitioning

unix - 将同一配置单元 session 中的多个查询输出导出到 shell 脚本？

有没有办法将hiveCLI中多个hive查询的输出导出到shell脚本？目前，我有shell脚本，其中有多个我触发的配置单元查询:VAR1=`hive-e"selectcount(*)fromtable1;"`VAR2=`hive-e"selectcount(*)fromtable2;"`VAR3=`hive-e"selectcount(*)fromtable3;"`这将在单独的配置单元session中运行所有查询，这将导致它等待yarn中的资源。相反，我想在同一个配置单元session中运行它们`hive-e"selectcount(*)fromtable1;selectcount(

配置单 session select section unix hadoop hive hadoop-yarn

unix - 无法在 unix 中执行二进制文件

我试图在ubuntu12中执行cloudra-manager-installer并收到以下错误。我通过提供了对该文件的可执行权限hduser@Dell:~$chmod+xcloudera-manager-installer.binhduser@Dell:~$./cloudera-manager-installer.binbash:./cloudera-manager-installer.bin:cannotexecutebinaryfile在执行uname时我得到以下结果hduser@Dell:~$uname-aLinuxDell3.5.0-47-generic#71~precise1

unix 无法 cloudera-manager-installer installer manager hadoop

unix - 在 UNIX 中的特定列中搜索匹配模式的行

我正在使用HDFS获取符合特定列中模式的数据，并希望它输出整行。(预计输出700万行中的200万行)这是我的具体情况:我想要一个文件中的整行，其中第4列中的数据以“5”开头例如我的数据集:HK|20151010|65|5005KR|20151009|38|5092MD|20150925|98|1943BG|20150826|82|4892HK|20151017|14|5002我希望命令产生以下结果:HK|20151010|65|5005KR|20151009|38|5092HK|20151017|14|5002非常感谢!(注意:我无法搜索整行，因为在其他列中有匹配项，其中列数据将以5开

中搜 unix section code pre hadoop awk sed grep

python - Unix 排序产生错误的输出

我正在尝试通过执行以下操作来测试hadoop流作业的映射器和缩减器功能:catdata.txt|pythonmapper.py|sort|pythonreducer.py但是映射器的排序输出不正确。hethe1i1idog1ilike1i'm1i'mrob1i'mthe1ithe1###thisshouldbeafter"ilike1"###lazy1我让其他人在他们的机器上进行测试，他们使用完全相同的映射器函数和命令行执行获得了正确的输出。所以我的Unix排序似乎出了问题。如果这有帮助:echo$TERM>vt100对于尝试或设置不同的内容的任何建议将不胜感激。谢谢

python Unix section 射器 code sorting hadoop

unix - 使用 cygwin 和 hadoop 创建文件

我正在使用本教程来设置第一个hadoop项目:http://hadoop.apache.org/docs/r0.18.3/mapred_tutorial.html#Source+Code我对这部分感到困惑:Sampletext-filesasinput:$bin/hadoopdfs-ls/usr/joe/wordcount/input//usr/joe/wordcount/input/file01/usr/joe/wordcount/input/file02$bin/hadoopdfs-cat/usr/joe/wordcount/input/file01HelloWorldByeWor

cygwin hadoop wordcount section input unix

84 85 868788 89 90