草庐IT

Hadoop-Solr

全部标签

hadoop - 如果创建一个包含 300 个列族的 hbase 表就可以了?

我有一个场景,其中每个对象都有300个变体,所以我想将它们存储在hbase中,每一行将原始对象和300个变体存储在不同的列族中?访问模型尝试每天早上批量插入对象到表中,然后读取它们。我不知道是否可以为我的场景创建一个包含300个列族的hbase表? 最佳答案 文档suggests列族的数量最多应为10,并且also列族的正常数量在1到3之间。您是否反对将三百列存储到一个列族中? 关于hadoop-如果创建一个包含300个列族的hbase表就可以了?,我们在StackOverflow上找到

hadoop - 配置多模式 Hadoop 集群

我正在尝试建立一个多节点集群,我有3台机器,其中一台充当名称节点和数据节点,另外两台充当数据节点。我对所有机器都有不同的用户名,node1的用户名是hdfsadmin,node2的用户名是hduser,node3的用户名也是hduser。问题是当我尝试连接到数据节点时Hadoop抛出一个连接被拒绝的错误,因为它期望数据节点的名称与名称节点相同,这在我的情况下是不同的。我该如何解决这个问题?提前致谢 最佳答案 不,不需要所有节点都具有相同的主机名。请交叉检查以下内容:1)确保您能够通过ssh访问另一个节点。2)确保在/etc/host

hadoop - 使用 Pig 脚本删除文件的第一行和最后一行

我想使用pig脚本删除HDFS文件的第一行和最后一行。我尝试使用Rank实现此目的并且它有效但我应该知道最后一个排名数字以删除它但我的文件是动态的它可以有更多或更少的行,对于那种情况我无法找到任何事物。请帮忙编辑:我的数据很大,所以我无法创建模式,也无法将它们分组以使用MIN()如何实现这一点? 最佳答案 一旦您获得可用的排名,您就可以通过MIN和MAXeval函数获得要排除的第一个和最后一个排名(即文件的第一行和最后一行)。这样您就无需对排名过滤器进行硬编码。EvalfunctionMAXEvalfunctionMIN注意:这是针

Hadoop 摄取自动化技术

我的背景是;10个csv文件在夜间上传到我的服务器。我的流程是:摄取:将文件放在HDFS上创建ORCHive表并将数据放入其中。处理:Spark处理:转换、清理、合并......很多链式步骤(SparkJob)我正在寻找最佳实践来自动化第一部分并触发第二部分。Cron,sh,dfs放置。奥齐?Apache尼菲?水槽?电话:(我也看到了https://kylo.io/,它很完美,但我认为将其投入生产还很年轻。提前致谢。 最佳答案 Oozie和Nifi都将与flume、hive和sparkAction结合使用。所以您的(Oozie或Ni

hadoop - Ambari 中数据库在安装 HDP 中的作用?

我使用ApacheAmbari安装了HDP,并看到它使用内置的默认数据库->PostgreSQL。使用ApacheAmbari安装HDP需要什么数据库? 最佳答案 Ambari用于配置、管理和监控Hadoop集群。为了使它有足够的能力做所有这些事情,它必须保留有关集群中所有服务的大量信息,并在数据库中跟踪所有这些信息。例如,所有服务配置都存储在一个中心位置(数据库)(hbase-site.xml、yarn-site.xml等),然后由ambari-agent进程写入到每个节点。另一个例子是服务状态。Ambari跟踪服务处于什么状态(

hadoop - 在 pig 中创建一个巨大的过滤器

我有这个代码。large=load'asuperlargefile'CC=FILTERlargeBY$19=='abcOR$20=='abc'OR$19=='def'or$20=='def'....;OR条件的数量可以达到100甚至数千。有更好的方法吗? 最佳答案 是的,将这些条件放在另一个文件中。将其加载到关系中并将两个关系连接到列上。如果必须在多个列上进行过滤,则创建与条件一样多的过滤文件。下面是2的示例栏目large=load'asuperlargefile'filter1=load'filewithvaluesneededt

r - 如何在SQL Server上为hadoop远程执行正常的R功能?

如何在不使用Microsoftrx函数的情况下在SQLServer上执行常规R代码?我认为ComputeContext“RxInSqlServer”不正确吗?但是我找不到关于其他ComputeContext-options的良好信息。此声明有可能吗?rxSetComputeContext(ComputeContext)还是只能使用它来执行rx功能?另一个选择是在RStudio或VisualStudio中设置服务器连接吗?我的问题是:我想通过SQLServer上的ODBC-Connection分析hadoop的数据,所以我想使用远程SQLServer的性能,而不是SQLServer中的数

hadoop - Hadoop 上的网络拓扑

我无法理解节点之间的距离如何变成0、2、4、6。谁能解释一下根据权威指南,例如,假设数据中心d1中的机架r1上有一个节点n1。这可以表示为/d1/r1/n1。使用这种表示法,以下是四种情况的距离:•distance(/d1/r1/n1,/d1/r1/n1)=0(同一节点上的进程)•distance(/d1/r1/n1,/d1/r1/n2)=2(同一机架上的不同节点)•distance(/d1/r1/n1,/d1/r2/n3)=4(同一数据中心不同机架上的节点)•distance(/d1/r1/n1,/d2/r3/n4)=6(不同数据中心的节点)。•距离(/d1/r1/n1,/d2/r3

hadoop - teradata connector sqoop sequencefile 格式能否克服分隔符问题?

如果数据库在字段中包含诸如“,”和“\n”之类的字段,是否有一种方法可以在不必修复这些分隔符的情况下使用sqoop到hive,可能使用替代格式而不是标准文本文件?一直在使用一些解决方法(即/替换定界符、oreplace等)。 最佳答案 我找到的解决方案是在换行符的列基础上解决这个问题:SELECTCOL_A,OREPLACE(COL_B,'0A'XC,'_replace_char_'),...,COL_NFROMTABLE_NAME假设这也适用于逗号。我还没有测试你是否可以嵌套这个replacechar语句。也没有估计对假脱机空间使

hadoop - Hive 中字符串的 CLUSTER BY

我在Hive中有以下查询CREATETABLEbucketed_users(idINT,nameSTRING,FlatNumberINT)CLUSTEREDBY(id)INTO4BUCKETS;是否只能在INT列(也在FlatNumber)上进行聚类,或者我们可以定义自定义函数,该函数将提供划分为聚类桶的逻辑? 最佳答案 可以在任何列上创建集群/桶,对于非数字列,HIVE将使用HASH(col)%"numberofbuckets"来查找记录的桶。 关于hadoop-Hive中字符串的CL