百万级数据导入（oracle）

Yluozi 2023-03-28 原文

前言：
最近有需求，做一个web端的Excel数据导入的功能，涉及到百万级数据体量的导入，1）excel实现可供选择的是poi和easyexcel实现（因为项目中已依赖poi的低版本依赖，引入easyexcel会提示依赖包冲突，最终选择poi实现，本人后续会记录具体功能实现代码），2）数据库处理及存入上因为涉及到大量数据，本人使多线程方法执行，在存入数据库过程，本人先使用的还是mybatis-plus实现，实现效果比较差：不到百万的数据，导入时间超过半小时，最后采用jdbc的批量导入来实现的该功能，线程连接池使用c3p0实现，具体项目demo后续提供。

其中：
多线程上未使用线程池，代码如下：

引入import java.util.concurrent.CountDownLatch;
private CountDownLatch countDownLatch;


        long start = Calendar.getInstance().getTimeInMillis();//开始时间,单位是毫秒
                 // 在这里 list 需要复制 需要插入数据库的实例集合
                // 异步多线程  插入数据库
                int total = list.size();    
                //每40000条数据，调用一次线程（具体数量配置看服务器或本地cpu及性能调整）  
                int batchSize = 40000;
                int number =total%batchSize ==0 ?total / batchSize :total / batchSize+1;
                countDownLatch = new CountDownLatch(number);
                for(int i = 0;i<number;i++){
                    List<Map<String, Object>> batchList = new ArrayList<>();
                    if(i== number-1){  // 最后一个
                        batchList = list.subList(i*batchSize,total);
                    }else{
                        batchList = list.subList(i*batchSize,(i+1)*batchSize);
                    }
                    /*创建多线程*/
                    logger.info("启动多线程：");
                    this.asyncBatchAddXml(countDownLatch,batchList);
                }
            }
            long end = Calendar.getInstance().getTimeInMillis();//结束时间
            double spentTime = (double) end - end1; //末减初就是所花时间
            logger.info("===数据导入时间:"+spentTime+"共计："+list.size()+"条成功数据");
            /*更新导入文件表内容*/

list为 List<Map<String, Object>> list = new ArrayList<>();是导入的全量数据

    @Async("asyncServiceExecutor")
    public Integer asyncBatchAddXml(CountDownLatch countDownLatch, List<Map<String, Object>> batchList) {

        try {
            int  count = insertAll("plugging_url", batchList);
            if(count>0){
                return Integer.valueOf(count);
            }else{
                return 0;
            }
        } catch (Exception e) {
            System.out.println(e.getLocalizedMessage());
            return 0;
        }finally {
            countDownLatch.countDown();
        }
    }

asyncBatchAddXml为多线程调用方法


    /**
     * 执行数据库插入操作 4   * @param datas     插入数据表中key为列名和value为列对应的值的Map对象的List集合
     * @param tableName 要插入的数据库的表名
     * @return 影响的行数
     * @throws SQLException SQL异常
     */
    public int insertAll(String tableName, List<Map<String, Object>> datas) throws SQLException {
        /**影响的行数**/
        int affectRowCount = -1;
        Connection connection = null;
        PreparedStatement preparedStatement = null;
        try {
            /**从数据库连接池中获取数据库连接**/
            connection = dataSource.getConnection();
            Map<String, Object> valueMap = datas.get(0);
            /**获取数据库插入的Map的键值对的值**/
            Set<String> keySet = valueMap.keySet();
            Iterator<String> iterator = keySet.iterator();
            /**要插入的字段sql，其实就是用key拼起来的**/
            StringBuilder columnSql = new StringBuilder();
            /**要插入的字段值，其实就是？**/
            StringBuilder unknownMarkSql = new StringBuilder();
            Object[] keys = new Object[valueMap.size()];
            int i = 0;
            while (iterator.hasNext()) {
                String key = iterator.next();
                keys[i] = key;
                columnSql.append(i == 0 ? "" : ",");
                columnSql.append(key);

                unknownMarkSql.append(i == 0 ? "" : ",");
                /*时间格式需要转换*/
                if(key.contains("time")||key.contains("TIME")){
                    unknownMarkSql.append("to_date(?,'yyyy-mm-dd hh24:MI')");
                }else{
                    unknownMarkSql.append("?");
                }

                i++;
            }
            /**开始拼插入的sql语句**/
            StringBuilder sql = new StringBuilder();
            sql.append("INSERT INTO ");
            sql.append(tableName);
            sql.append(" (");
            sql.append(columnSql);
            sql.append(" )  VALUES (");
            sql.append(unknownMarkSql);
            sql.append(" )");

            /**执行SQL预编译**/
            preparedStatement = connection.prepareStatement(sql.toString());
            /**设置不自动提交，以便于在出现异常的时候数据库回滚**/
            connection.setAutoCommit(false);
            System.out.println(sql.toString());
            for (int j = 0; j < datas.size(); j++) {
                for (int k = 0; k < keys.length; k++) {
                    preparedStatement.setObject(k + 1, datas.get(j).get(keys[k]));
                }
                preparedStatement.addBatch();
            }
            int[] arr = preparedStatement.executeBatch();
            connection.commit();
            affectRowCount = arr.length;
            System.out.println("JDBC成功了插入了"+affectRowCount+"行");
        } catch (Exception e) {
            if (connection != null) {
                connection.rollback();
            }
            e.printStackTrace();
            throw e;
        } finally {
            if (preparedStatement != null) {
                preparedStatement.close();
            }
            if (connection != null) {
                connection.close();
            }
        }
        return affectRowCount;
    }

insertAll为JDBC批量导入方法，其中数据库使用c3p0线程池连接

效果实际：

image.png

300W+的数据，文件大小在60mb，文件上传时间3min,处理时间2.3min

有关百万级数据导入（oracle）的更多相关文章

ruby - 检查是否通过 require 执行或导入了 Ruby 程序 - 2
如何检查Ruby文件是否是通过“require”或“load”导入的，而不是简单地从命令行执行的？例如:foo.rb的内容:puts"Hello"bar.rb的内容require'foo'输出:$./foo.rbHello$./bar.rbHello基本上，我想调用bar.rb以不执行puts调用。最佳答案将foo.rb改为:if__FILE__==$0puts"Hello"end检查__FILE__-当前ruby文件的名称-与$0-正在运行的脚本的名称。关于ruby-检查是否
Ruby:如何从另一个文件导入变量？ - 2
我正在尝试创建一个与compass一起使用的本地配置文件，这样我们就可以处理开发人员机器上的不同导入路径。到目前为止，我已经尝试将文件导入到异常block中，以防它不存在，然后进一步使用该变量:local_config.rbVENV_FOLDER='venv'config.rbVENV_FOLDER='.'beginrequire'local_config.rb'rescueLoadErrorendputsVENV_FOLDER通常我是一名Python开发人员，所以我希望导入将VENV_FOLDER的值更改为venv，但它仍然是。之后。有没有一种方法可以导入local_config.r
ruby - Ruby 导入的方法总是私有(private)的吗？ - 2
最好用一个例子来解释:文件1.rb:deffooputs123end文件2.rb:classArequire'file1'endA.new.foo将给出错误“':调用了私有(private)方法'foo'”。我可以通过执行A.new.send("foo")来解决这个问题，但是有没有办法公开导入的方法？编辑:澄清一下，我没有混淆include和require。另外，我不能使用正常包含的原因(正如许多人正确指出的那样)是因为这是元编程设置的一部分。我需要允许用户在运行时添加功能；例如，他可以说“run-this-app--includefile1.rb”，应用程序的行为将根据他在file1
ruby-on-rails - Rails 导入 CSV 错误 : invalid byte sequence in UTF-8 - 2
尝试在我的Rails应用程序中导入CSV文件时，出现错误UTF-8中的无效字节序列。一切正常，直到我添加了一个gsub方法来将其中一个CSV列与我的数据库中的一个字段进行比较。当我导入CSV文件时，我想检查每一行的地址是否包含在特定客户端的不同地址数组中。我有一个带有alt_addresses属性的客户端模型，其中包含客户端地址的几种不同可能格式。然后我有一个引用模型(如果您熟悉本地SEO，您就会知道这个术语)。引用模型没有地址字段，但它有一个nap_correct?字段(NAP代表“姓名”、“地址”、“电话号码”)。如果CSV行的名称、地址和电话号码与我在该客户的数据库中拥有的相同，
如何判断oracle是否启动及启动oracle数据库 - 2
plsql连接Oracle超时，完犊子了肯定是服务器断电了。得马上检查Oracle服务器状态1、检查数据库是否启动su-oracle切换到Oracle用户，输入sqlplus/assysdba显示连接状态。如果末尾显示的状态是Connectedtoanidleinstance.证明未启动2、启动数据库startup启动数据库，末尾出现Databaseopened说明数据库启动成功3、查看数据库监听是否正常先quit;断开Oracle连接，使用lsnrctlstatus查看监听状态，如果出现TNS-开头的Nolistener、Connectionrefused等错误，说明监听未启动4、启动数据库
ruby - git:从 bitbucket 导出并导入 github(带提交) - 2
我在bitbucket上创建了一个私有(private)git存储库并提交了代码。现在我想导出所有(提交、代码、历史记录)并将其导入github上的gitrepo。有没有办法做到这一点？谢谢最佳答案在本地检查所有内容到您的计算机和gitpull。创建一个github存储库将此存储库添加为您的第二个远程(“使用gitremote添加githubURL”)推送到第二个Remote 关于ruby-git:从bitbucket导出并导入github(带提交)，我们在StackOverflow
ruby - 使用 rake 导入(调用其他 rakefile) - 2
这是我的主要rake文件subrake='subrake'task:init=>[subrake]do#callsubrake.buildendimportsubrake我看到有关上述步骤如何工作的文档，但我无法弄清楚如何调用其他subrake文件中的任务。顺便说一句，这些任务可能与我的同名，这是个问题吗？最佳答案我想我回答晚了，但几分钟前我也有同样的问题。因此该解决方案可能对某些人有用。Rakefile.rbsubrake='subrake'task:default=>:inittask:init=>["#{subrake}:
ruby - 使用 Sinatra 时如何从 gem 导入 rake 任务？ - 2
我正在尝试向orientdbgem添加一些基本的rake任务，这将允许我创建数据库、创建数据库迁移和迁移数据库——类似于rails迁移。当我在本地执行rake任务时，我可以使用db:settings、db:create和db:create_migration，但是在将它们放入gem之后，我不知道如何从Sinatra访问它们使用“rake”时的应用。我有一种感觉，我要么是a)没有正确地组织gem中的文件和/或b)没有从Sinatra应用程序正确地调用东西。我的fork存储库的当前状态是https://github.com/ricaurte/orientdb-jruby我将任务文件放在li
ruby - 使用 Ruby 连接到 Oracle 数据库 - 2
我无法连接到OracleDB，阅读了很多资料但对结果没有帮助。我有远程OracleDB，我正在使用DBVisualizer设置连接连接到它，如下所示:DBType:OracleDriver(jdbc):OraclethinDatabaseURL:jdbc:oracle:thin:@10.10.100.10:1521/VVV.LOCALDOMAINUserIdf:SomeUserPass:SomePass连接正常。我在Ruby中所做的是:require'oci8'require'dbi'...conn=OCI8.new('SomeUser','SomePass','//10.10.100
sql - ruby on rails 为 oracle View /函数准备的语句 - 2
我有以下代码执行oracleView，如下所示:defrun_queryconnection.exec_query("SELECT*FROMTABLE(FN_REQRESP(#{type_param},#{search_type_param},#{tid_param},#{last_param},#{key_param},#{tran_id_param},#{num_param},#{start_date_param},#{end_date_param}))")end上述查询的输出如下:SELECT*FROMTABLE(FN_REQRESP('ALL','ALL_TRAN','1000

百万级数据导入（oracle）

有关百万级数据导入（oracle）的更多相关文章

随机推荐