草庐IT

attribute-specifier-seq_opt

全部标签

java - Hadoop Java : how to specify map key as one of the index of input split?

我有一个看起来像这样的输入数据:3070801,1963,1096,,"BE","",,1,,269,6,69,,1,,0,,,,,,,3070802,1963,1096,,"US","TX",,1,,2,6,63,,0,,,,,,,,,3070803,1963,1096,,"US","IL",,1,,2,6,63,,9,,0.3704,,,,,,,3070804,1963,1096,,"US","OH",,1,,2,6,63,,3,,0.6667,,,,,,,3070805,1963,1096,,"US","CA",,1,,2,6,63,,1,,0,,,,,,,3070806,196

hadoop - Druid 批量索引 inputSpec 类型粒度,错误为 "no input paths specified in job"

我正在按照此处编写的说明进行操作:http://druid.io/docs/0.9.2/ingestion/batch-ingestion.html(滚动到“InputSpecspecification”,寻找“granularity”)。我的索引任务JSON中有:"inputSpec":{"type":"granularity","dataGranularity":"DAY","inputPath":"hdfs://hadoop:9000/druid/events/interview","filePattern":".*","pathFormat":"'y'=yyyy/'m'=MM/

Hadoop hive : Generate Table Name and Attribute Name using Bash script

在我们的环境中,我们无法访问Hive元存储来直接查询。我需要为一组表动态生成表名、列名对。我试图通过对所有表的文件运行“describeextended$tablename”并从文件中选取表名和列名对来实现这一点。除了这种方式,还有其他更简单的方法吗?想要的输出是这样的table1|col1table1|col2table1|col3table2|col1table2|col2table3|col1 最佳答案 此脚本将为单个表以所需格式打印列。AWK从describe命令解析字符串,只接受column_name,用“|”连接和tab

vector - java.lang.OutOfMemoryError : Java heap space error while running seq2sparse in mahout 错误

我正在尝试在mahout中使用k-means对一些手工制作的日期进行聚类。我创建了6个文件,每个文件中几乎没有1或2个单词的文本。使用./mahoutseqdirectory从它们中创建一个序列文件。在尝试使用./mahoutseq2sparse命令将序列文件转换为向量时,出现java.lang.OutOfMemoryError:Javaheapspace错误。序列文件大小为0.215KB。命令:./mahoutseq2sparse-imokha/output-omokha/vector-ow错误日志:SLF4J:ClasspathcontainsmultipleSLF4Jbindin

包含索引、数据和 bloom 文件的 Hadoop seq 目录——如何读取?

Hadoop新手...我有一系列HDFS目录,命名约定为filename.seq。每个目录包含一个索引、数据和bloom文件。这些具有二进制内容并且似乎是SequenceFiles(SEQ开始标题)。我想知道结构/模式。我阅读的所有内容都是指阅读单个序列文件,所以我不确定如何阅读这些文件或它们是如何生成的。谢谢。更新:我已经尝试过推荐的工具来流式传输和输出文件上的文本,但都没有用:hadoopfs-text/path/to/hdfs-filename.seq/data|headhadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streami

hadoop - Mahout - Seq2Sparse 单 reducer

我已经运行了很多天的seq2sparse作业,但它就是没有完成。主要原因是大多数“子作业”只有1个reducer,而每个作业都有很多映射器。我在从命令行调用seq2sparse时指定了--numReducers=n,但该属性仅在某些地方使用,例如MakePartialVectors而不是用于子作业,例如PruneVectors.可能是什么原因? 最佳答案 我查看了代码并意识到numReducers变量并未传递给所有子作业,因此这些作业是使用默认的缩减容量创建的,即1要绕过此限制,只需指定变量-Dmapred.reduce.tasks

python - PySpark 加载 CSV AttributeError : 'RDD' object has no attribute '_get_object_id'

我正在尝试将CSV文件加载到sparkDataFrame中。这是我到目前为止所做的:#scisanSparkContext.appName="testSpark"master="local"conf=SparkConf().setAppName(appName).setMaster(master)sc=SparkContext(conf=conf)sqlContext=sql.SQLContext(sc)#csvpathtext_file=sc.textFile("hdfs:///path/to/sensordata20171008223515.csv")df=sqlContext.l

java - 在 Hadoop 上运行 MapReduce 字数统计会给出异常消息 : The system cannot find the path specified

这是我的第一个StackOverflow问题。我已经在伪分布式模式下设置了我的hadoop(2.9.2)单节点集群。当我尝试运行hadoopjarC:/MapReduceClient.jarwordcount/input_dir/output_dir时,我得到以下错误日志19/01/1620:19:17INFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803219/01/1620:19:18INFOinput.FileInputFormat:Totalinputfilestoprocess:119/01/1620:19:1

mysql - Sqoop 导入 : Specify `select` expressions in a separate file?

将数据从MySQL导入Hive时,我需要规范化几个包含电话号码的文本字段。这需要相当复杂的逻辑,很难用单个SQLreplace函数在Sqoop命令行中表达。是否可以在单独的文件中指定SQLselect表达式并从命令行引用它?谢谢! 最佳答案 你可以试试:$sqoop--options-file/users/homer/work/option.txt-您的option.txt将如下所示:#OptionsfileforSqoopimport##Specifiesthetoolbeinginvokedimport#Connectparam

ubuntu - 权限被拒绝 : u'/opt/cloudera/parcel-cache/CDH-5. 3.3-1.cdh5.3.3.p0.5-precise.parcel.part'

我正在尝试安装具有3个节点的hadoopcloudera集群,所有这些节点都是ubuntu12.04机器。为此,我做了以下事情。我已经在所有机器上创建了hduser,并通过以下命令授予它root权限。sudoaddgrouphadoopsudoadduser--ingrouphadoophdusersudoadduserhdusersudosudosuhduser然后在所有机器上通过以下命令为无密码ssh生成无密码key。机器详细信息:master-1ip:192.168.0.101slave-1ip:192.168.0.102slave-2ip:192.168.0.103命令:ssh