草庐IT

MongoDb-Server

全部标签

mongodb - 在 Hadoop MapReduce(使用 Mongo Hadoop 连接器)之后,重复记录被写入 MongoDB

我们在AWSEMR上的Hadoop测试环境1个主节点2个从节点当我们提交一个小测试作业时,它会触发1个maptask。map任务完成后,将触发3个reduce任务。reduce任务完成后,我们的输出数据将写入Mongo集合。但是我们注意到,在某些情况下,输出中有重复的记录。这会导致我们的下游处理任务崩溃,因为它们不需要重复。我注意到的一件事是,其中一个reduce任务有时会被终止,然后由hadoop重新启动-如果它在将数据写入Mongo的过程中被终止,这会导致重复记录吗?有什么方法可以从日志中看出Mongohadoop连接器是否真的在向Mongo写入数据?有什么方法可以确保在提交给Mo

sql-server - SQL Server 2012 和 Polybase - 缺少 'Hadoop Connectivity' 配置选项

如标题所述,我正在使用具有Polybase功能的SQLServer2012并行数据仓库来尝试访问HDInisghtHadoop集群。作为从SQLServer到Hadoop的每个连接的起点,我发现执行命令sp_configure@configname='hadoopconnectivity',@configvalue={0|1|2|3|4|5};RECONFIGURE;执行后,我收到以下错误:Theconfigurationoption'hadoopconnectivity'doesnotexist,oritmaybeanadvancedoption.请注意,我将高级选项设置为1(可见)

sql-server - 如何将特定模式的数据从 SQL Server 2014 (Unicode) 导入 Hive 仓库

我想从SQLServer导入数据并从hive查询它。我使用cloudera模板创建了一个VirtualBox,并开始阅读它的教程。我成功地能够使用sqoop作为avro文件从SQLServer导入数据,然后在配置单元中创建表并从avro文件导入数据。然后从hive查询。但是sqoop的import-all-tables命令只导入模式“dbo”的表。如果我还想导入具有架构dw的表怎么办?我尝试使用import命令导入dw模式中存在的特定表。但这也行不通。知道如何使用sqoop从SQLServer为非dbo.架构相关表导入数据作为avro吗?或者从SQLServer导入数据而不是dbo.模

DELL PowerEdge R620 重新安装Server 2008 R2 一路的各种坑

DELLPowerEdgeR620服务器重装Server2008R2流程中遇到的坑。1.不知道服务器和普通PC安装的区别   刚开始有点蜜汁自信,网上很快就找到了Server2008R2的镜像。照着PC的那套流程装,系统就是跑不起来,一直反复重启。看帖子后,发现少了一步配置RAID。于是重启Ctrl+R,打开了新天地,啥也不懂。发现已经配置了raid5,还没配置的小伙伴网上帖子一大堆,去搜吧。哈哈进行下一步。头铁继续使用U盘PE环境继续安装,还是跑不起来。2.找了好多不能用的RAID驱动,就很无语    放弃自动安装,手动开始,双击iso镜像文件里的setup.exe,开始执行手动安装程序,选

hadoop - 如何将 Microsoft SQL Server 中的数据导入 HBase

我已经使用ClouderaManager和CDH5.4在集群系统(1Master,2Slaves,基于Ubuntu的高配置)上成功安装了ApacheHadoop我想将数据从MicrosoftSQL服务器导入到HBase(基于列的hadoop数据库),截至目前,我已经从SQL服务器生成CSV文件并使用HBase浏览器(ClouderaManager中的Hue应用程序)将CSV导入到HBase。如果有任何方法可以直接将SQL服务器数据导入HBase,那对我会有帮助,我听说Sqoop应用程序已经完成了将数据从RDBMS导入Hadoop系统(即使我没有尝试这个,我假设这会导入CSV文件到Had

dolphinsheduler出现无法使用安全套接字层(SSL)加密建立与SQL Server的安全连接

在使用海豚调度器创建sqlserver的数据源头时出现连接失败,去服务器那边的api-server/logs下面查看报错信息报错信息:[ERROR]2024-01-0904:11:54.907-0800org.apache.dolphinscheduler.plugin.datasource.api.datasource.AbstractDataSourceProcessor:[124]-Checkdatasourceconnectivityfor:SQLSERVERerrorcom.microsoft.sqlserver.jdbc.SQLServerException:Thedriverco

dolphinsheduler出现无法使用安全套接字层(SSL)加密建立与SQL Server的安全连接

在使用海豚调度器创建sqlserver的数据源头时出现连接失败,去服务器那边的api-server/logs下面查看报错信息报错信息:[ERROR]2024-01-0904:11:54.907-0800org.apache.dolphinscheduler.plugin.datasource.api.datasource.AbstractDataSourceProcessor:[124]-Checkdatasourceconnectivityfor:SQLSERVERerrorcom.microsoft.sqlserver.jdbc.SQLServerException:Thedriverco

sql-server - Sqoop Hive 字符串数据类型到 MS SQL Server 类型

我正在使用Sqoop将数据从SQLServer导入Hive,然后将该数据从Hive导出到另一个SQLServer。SqoopImport工作正常并将VCHAR/NVARCHAR数据类型转换为字符串。我的问题是在Target表上定义的最佳列类型是什么,因为Hive目前将数据类型保存为字符串?我最初将Target表上的大部分列定义为VARCHAR(100)并且它一直在工作,但现在一些String在导出过程中失败了,我得到:SQLState:22001,errorcode:8152"java.sql.BatchUpdateException:Stringorbinarydatawouldbe

hadoop - 在 ambari 安装选项中,我应该添加 Ambari-Server IP/主机名吗?

我是ambari的新手,我关注了hortronworks关于如何安装ambari的教程。我的问题是在安装选项的步骤中,我应该设置服务器和代理的主机名还是只设置代理?(因为当我只设置代理时它通过否则失败!)提前谢谢你 最佳答案 您必须提供所有节点/主机的IP。如果它在您的服务器节点上不起作用,那么主要是因为您的sshauthorized_key该步骤未在该节点上完成。在您的服务器节点(在.ssh目录中)执行catid_rsa.pub>>authorized_keys。(请勿触摸任何其他sshkey)尝试从同一节点通过ssh连接到您的服

hadoop - 无法在配置单元 server2 上模拟

我试图通过JDBC连接器连接到配置单元服务器2,但出现错误:'userxcantimpersonatey'我将这些属性添加到我的core-site.xml文件中:hadoop.proxyuser.hive.hosts*hadoop.proxyuser.hive.groups*此外,在hive-site.xml中我有:hive.server2.enable.doAstrueSettingthispropertytotruewillhaveHiveServer2executeHiveoperationsastheusermakingthecallstoit.我将我的身份验证设置为无,并且我