草庐IT

init_from_stream

全部标签

apache-spark - Spark Streaming to Hive,每个分区的小文件太多

我有一个批处理间隔为2分钟(可配置)的Spark流作业。此作业从Kafka主题读取并创建数据集并在其上应用模式并将这些记录插入到Hive表中。Spark作业在Hive分区中每个批处理间隔创建一个文件,如下所示:dataset.coalesce(1).write().mode(SaveMode.Append).insertInto(targetEntityName);现在传入的数据不是那么大,如果我将批处理持续时间增加到10分钟左右,那么即使我最终也可能只获得2-3mb的数据,这远小于block大小。这是SparkStreaming中的预期行为。我正在寻找有效的方法来进行后处理以合并所有

hadoop - 问题 : Scala code in Spark shell to retrieve data from Hbase

我们正在尝试在Sparkshell中执行一个简单的Scala代码以从Hbase检索数据。Hadoop环境启用了Kerberos,我们已确保执行kinit。调用SparkShell的步骤:MASTER=yarn-clientDRIVER_CLASSPATH="/opt/cloudera/parcels/CDH/lib/hbase/lib/*"DRIVER_LIBRARY_PATH="/opt/cloudera/parcels/CDH/lib/hadoop/lib/native"spark-shell--driver-class-path"$DRIVER_CLASSPATH"--drive

python selenuim TypeError: WebDriver.__init__() got an unexpected keyword argument ‘chrome_options‘

PythonselenuimTypeError:WebDriver.__init__()gotanunexpectedkeywordargument'chrome_options'运行客户端:Pycharm 运行程序如下:fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsoptions=Options()wd=webdriver.Chrome(chrome_options=options,executable_path=r'c:\chromedriver\chromedriver.exe')

vue2bug解决:in ./src/views/install/data-base/scss/menu.scss Module Warning (from ./node_modules/postc

文章目录导文文章重点导文in./src/views/install/data-base/scss/menu.scssModuleWarning(from./node_modules/postcss-loader/src/index.js):Warning(14:5)startvaluehasmixedsupport,considerusingflex-startinstead@./node_modules/css-loader/dist/cjs.js??ref–8-oneOf-1-1!./node_modules/vue-loader/lib/loaders/stylePostLoader.j

oracle - 勺子 : import data from Oracle

我尝试使用Sqoop从Oracle数据库导入数据。我已将OracleJDBC驱动程序(ojdbc6.jar)放入SQOOP_HOME/lib。我的JDK是1.6版本。这是我的查询:sqoopimport--hive-import--connectjdbc:oracle:thin@:1521/db--tableENTITE--usernameusername--passwordpassword但是,当我启动命令时,我得到这个错误:ERRORsqoop.Sqoop:GotexceptionrunningSqoop:java.lang.RuntimeException:Couldnotloa

用于 Flume 接收器文件的 Hadoop Streaming MapReduce - FileNotFoundException

我遇到以下异常:java.io.FileNotFoundException:Filedoesnotexist:/log1/20131025/2013102509_at1.1382659200021.tmpatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.fetchLocatedBlocks(DFSClient.java:2006)atorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1975)...当MR作业正在运行时。Flume将文件名从xx

r - 在 rhdfs 中的 hdfs.init() 中出现错误

我想运行hdfs.init(),我的代码是:Sys.setenv(HADOOP_CMD="C:\\hdp\\hadoop\\hadoop-1.2.0.1.3.0.0-0380\\bin\\hadoop")Sys.setenv(HADOOP_CONF_DIR="C:\\hdp\\hadoop\\hadoop-1.2.0.1.3.0.0-0380\\conf")library(rhdfs)hdfs.init()执行hdfs.init()后,我得到如下错误:>hdfs.init()Errorin.jnew("org/apache/hadoop/conf/Configuration"):jav

Hive表字段类型转换错误解决:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

文章目录1问题场景1.1问题发生的背景1.1操作方法11.2操作方法21.3报错信息2问题分析3解决方法3.1在SQL代码中加参数3.2在提交Hive程序时,附加上hiveconf参数3.3修改hive-site.xml文件1问题场景假设某有数据的Hive表temp_table的字段状况如下,需要将A字段由string类型转为int类型:字段名称字段类型是否为分区字段Astring否Bint否Cbigint否Dstring是1.1问题发生的背景在Hdfs数据库中,该表的数据是以Parquet文件格式存储的,包含多个分区。原本在该表中的字段A的类型为int。然而笔者误操作,将该字段的类型转换为了

oracle - 异常 : Job Failed with status:3 when copying data from Oracle to HDFS through sqoop2

我正在尝试使用Sqoop2将数据从Oracle11g2服务器复制到HDFS。Oracle的链接似乎有效,因为如果我使用无效的凭据,它会提示。定义如下:linkwithid14andnameOLink(Enabled:true,Createdbyxxxat2/9/162:48PM,Updatedbyxxxat2/11/1610:08AM)UsingConnectorgeneric-jdbc-connectorwithid4LinkconfigurationJDBCDriverClass:oracle.jdbc.driver.OracleDriverJDBCConnectionString

macos - nohup : can't detach from console: Inappropriate ioctl for device

在OSX上启动hadoop资源管理器时,出现以下错误:bash-3.2$start-yarn.shstartingyarndaemonsstartingresourcemanager,loggingto/Users/hadoop/hadoop-2.7.3/logs/yarn-hadoop-resourcemanager-MacBook-Pro-2.local.outnohup:can'tdetachfromconsole:Inappropriateioctlfordevicelocalhost:startingnodemanager,loggingto/Users/hadoop/had