草庐IT

Cloudera

全部标签

sql-server - 如何将特定模式的数据从 SQL Server 2014 (Unicode) 导入 Hive 仓库

我想从SQLServer导入数据并从hive查询它。我使用cloudera模板创建了一个VirtualBox,并开始阅读它的教程。我成功地能够使用sqoop作为avro文件从SQLServer导入数据,然后在配置单元中创建表并从avro文件导入数据。然后从hive查询。但是sqoop的import-all-tables命令只导入模式“dbo”的表。如果我还想导入具有架构dw的表怎么办?我尝试使用import命令导入dw模式中存在的特定表。但这也行不通。知道如何使用sqoop从SQLServer为非dbo.架构相关表导入数据作为avro吗?或者从SQLServer导入数据而不是dbo.模

hadoop - 如何使用 Solr 索引目录中的所有 csv 文件?

给定一个包含数百个制表符分隔的csv文件的目录,每个文件的第一行都没有标题。这意味着我们将通过其他方式指定列名。这些文件可以位于本地磁盘或HDFS上。索引这些文件的最有效方法是什么? 最佳答案 如果你有很多文件,我认为有几种方法可以提高索引速度:首先,如果你的数据在本地磁盘上,你可以使用多线程建立索引,但需要注意,每个线程都有自己的索引输出目录。最后将它们合并成一个索引,以提高搜索速度。其次,如果你的数据在HDFS上,我觉得使用HadoopMapReduce来建立索引是非常强大的。另外,Pig或者Hive的一些UDF插件也可以很方便

hadoop - hive不能在cloudera中创建角色和显示角色?

我在配置单元终端中输入命令showroles;后出现错误。请帮助我,我在hive-site.xml中添加了一些属性。我在cloudera-quickstart-5.4.2.0-vmware中工作。hive.security.authorization.enabledtrueenableordisablethehiveclientauthorizationhive.security.authorization.createtable.owner.grantsALLtheprivilegesautomaticallygrantedtotheownerwheneveratablegetscr

hadoop - 如何在不使用 Cloudera 管理器的情况下在 100 节点集群上安装 Cloudera CDH?

如何在不使用Cloudera管理器的情况下在100节点集群上安装ClouderaCDH?在集群中的每个节点上手动安装和配置CDH是一项艰巨的任务。使用哪些工具和技术来自动化生产中的任务? 最佳答案 CDH支持基于Parcel和基于Package的安装。如果您愿意,可以使用Puppet/Chef这些类型的配置管理工具来进行基于包的安装。但是,推荐的方式是使用ClouderaManager进行基于Parcel的安装。ClouderaManager提供了许多OOTB功能,包括监控、配置版本控制、基于向导的安全配置、滚动升级等。如果您不使用

hadoop - M/R 作业提交失败,错误为 : Could not find Yarn tags property > (mapreduce. job.tags)

我在运行map/reduce作业时遇到以下异常。我们通过oozie提交map/reduce作业。FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.JavaMain],main()threwexception,CouldnotfindYarntagsproperty(mapreduce.job.tags)java.lang.RuntimeException:CouldnotfindYarntagsproperty(mapreduce.job.tags)atorg.apache.oozie.action.hadoop

hadoop - 在java代码中找到hive-site.xml的位置

我想在我的java程序中传递hive-site.xml文件的位置。在java代码中自动找出此文件位置的最佳方法是什么?我不想硬编码到/etc/hive/conf/hive-site.xml的路径以用于cloudera分发 最佳答案 默认情况下,HadoopConfiguration构造函数会在CLASSPATH中的目录中搜索“blahblah-site.xml”配置文件。如果它没有找到它们,那么它将恢复为硬编码的“默认”值,没有任何警告(!)。因此请确保CLASSPATH在前面包含适当的目录,例如/etc/hadoop/conf/:

hadoop - 无法从主机访问到cloudera WEBHDFS( guest )

我已经阅读了所有这些链接中的WebHdfslink1link2link3使用telnet检查-端口已打开在cloudera(virtualbox)中进行必要的设置以启用webhdfs直接在cloudera上进行测试:[cloudera@quickstart~]$curl-i-L"http://10.0.0.88:50070/webhdfs/v1/user/cloudera/testdir/testFile?op=OPEN"HTTP/1.1307TEMPORARY_REDIRECThttp://quickstart.cloudera:50075/webhdfs/v1/user/cloud

hadoop - 无法打开cloudera管理器

我是大数据和hadoop的新手,我制作了一个名为test的文件,其中包含helloworld内容,我想在尝试此操作时将其上传到文件浏览器中,它给了我一个错误,我试图通过在此搜索答案来解决它网站,我发现问题出在群集“clouderamanager”中,当我尝试打开它时,它给了我一条消息,强烈建议使用10个Rams,但如果你想强制打开,请使用命令force“我的电脑是6gram并且在下载系统时建议使用8gram总线我给虚拟机5.5gram并且它在使用系统时很灵活那么问题是什么以及我如何强制启动cloudera管理器? 最佳答案 启动终端

java - 获取 ArrayIndexOutOfBoundsException : 3 while executing Hadoop Pragram on cloudera

在clouderalinux机器上我得到ArrayIndexOutOfBoundsException:3。我不明白为什么这个程序会出现这个异常,只有其他人对我来说很好。publicclassTransactionCountextendsConfiguredimplementsTool{@Overridepublicintrun(String[]arg0)throwsException{if(arg0.length 最佳答案 我认为在if条件下你应该使用arg0.length而不是arg0.length

hadoop - 可用于创建数据管道的不同工具

我需要在hadoop中创建数据管道。我有数据导入、导出、清理数据设置的脚本,现在需要在管道中进行设置。我一直在使用Oozie进行数据导入和导出计划,但现在还需要集成R脚本来进行数据清理过程。我看到falcon也用于相同的目的。如何在cloudera中安装falcon?还有哪些其他工具可用于在hadoop中创建数据管道? 最佳答案 2)我很想回答Hortonworks的nifi,因为这个postonlinkedin它已经成长了很多,并且非常接近于取代oozie。当我写这个答案时,oozie和nifi之间的区别在于它们运行的​​地方:外