草庐IT

mysql - 在 oracle 中插入 pandas dataframe 非常慢

coder 2023-10-11 原文

我正在处理 pandas 数据帧。我的应用程序的目标是对 csv 文件执行某些分析,完成后,将此 csv 文件插入 oracle 数据库。

为了插入 oracle 数据库,我使用了 pandas 库的 to_sql 命令。但是要插入 300,000 行,我的代码大约需要 2 小时 10 分钟。然而,当我使用 MySQL 数据库进行相同的分析和相同大小的输入数据时,只用了 90 秒。

我在 lubuntu VM 中执行所有操作。作为引用,您可以在下面找到相关代码。

data_frame.to_sql(name='RSA_DATA', con=get_engine(), if_exists='append',
                           index=False, chunksize=config.CHUNK_SIZE)
input_data_list = get_rsa_object_list(data_frame)

我对这两种情况使用了相同的 CHUNK_SIZE(设置为 500)。

有人可以建议这可能是什么原因吗?我该如何解决这个问题?我无法将我的数据库系统从 oracle 更改为任何其他数据库。我使用 MySQL 只是为了确保问题不在于我的代码。

提前致谢。

以下是 Oracle 数据库的 CREATE TABLE 命令:

  CREATE TABLE "CRISDEV"."RSA_DATA" 
   (    "GENE_SYMBOL" VARCHAR2(50 BYTE), 
    "GENEID" NUMBER, 
    "CRISPR" VARCHAR2(75 BYTE), 
    "RSASCORE" NUMBER, 
    "LOGP" NUMBER, 
    "BEST_ACTIVITY" NUMBER, 
    "RSA_HIT" NUMBER, 
    "HIT_PER_GENE" NUMBER, 
    "TOTAL_CRISPRS" NUMBER, 
    "RSA_RANK" NUMBER, 
    "SAMPLE_NAME" VARCHAR2(10 BYTE), 
    "FOLD_CHANGE" NUMBER, 
    "EXPERIMENT_NUM" NUMBER, 
    "CELL_LINE" VARCHAR2(75 BYTE), 
    "CRISPR_LIB" VARCHAR2(75 BYTE), 
    "CRISPR_LOT" VARCHAR2(25 BYTE), 
    "CAS9_VENDOR" VARCHAR2(50 BYTE), 
    "CAS9_LOT" VARCHAR2(25 BYTE), 
    "CRISPR_INFECT_DATE" DATE, 
    "CAS9_INFECT_DATE" DATE, 
    "CAS9_MOI" NUMBER, 
    "FTE" VARCHAR2(50 BYTE), 
    "SAMPLE_NAME_LONG" VARCHAR2(150 BYTE), 
    "INDICATION" VARCHAR2(100 BYTE), 
    "LOW_CRISPR_COUNT" NUMBER DEFAULT 0, 
    "MODIFICATION" VARCHAR2(20 BYTE), 
    "TIMEPOINT" VARCHAR2(10 BYTE)
   ) SEGMENT CREATION IMMEDIATE 
  PCTFREE 10 PCTUSED 40 INITRANS 1 MAXTRANS 255 
 NOCOMPRESS LOGGING
  STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
  PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
  BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
  TABLESPACE "CRISDEV_DATA" ;

  CREATE INDEX "CRISDEV"."C20150312_RSA_CELLLINE" ON "CRISDEV"."RSA_DATA" ("CELL_LINE") 
  PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS 
  STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
  PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
  BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
  TABLESPACE "CRISDEV_IDX" ;

  CREATE INDEX "CRISDEV"."C20150312_RSA_CRISPRLIB" ON "CRISDEV"."RSA_DATA" ("CRISPR_LIB") 
  PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS 
  STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
  PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
  BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
  TABLESPACE "CRISDEV_IDX" ;

  CREATE INDEX "CRISDEV"."C20150312_RSA_GENEID" ON "CRISDEV"."RSA_DATA" ("GENEID") 
  PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS 
  STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
  PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
  BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
  TABLESPACE "CRISDEV_IDX" ;

  CREATE INDEX "CRISDEV"."C20150312_RSA_GENESYMBOL" ON "CRISDEV"."RSA_DATA" ("GENE_SYMBOL") 
  PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS 
  STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
  PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
  BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
  TABLESPACE "CRISDEV_IDX" ;

  CREATE INDEX "CRISDEV"."C20150312_RSA_SAMPLELONG" ON "CRISDEV"."RSA_DATA" ("SAMPLE_NAME_LONG") 
  PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS 
  STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
  PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
  BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
  TABLESPACE "CRISDEV_IDX" ;

  CREATE INDEX "CRISDEV"."C20150312_RSA_SAMPLENAME" ON "CRISDEV"."RSA_DATA" ("SAMPLE_NAME") 
  PCTFREE 10 INITRANS 2 MAXTRANS 255 COMPUTE STATISTICS 
  STORAGE(INITIAL 65536 NEXT 1048576 MINEXTENTS 1 MAXEXTENTS 2147483645
  PCTINCREASE 0 FREELISTS 1 FREELIST GROUPS 1
  BUFFER_POOL DEFAULT FLASH_CACHE DEFAULT CELL_FLASH_CACHE DEFAULT)
  TABLESPACE "CRISDEV_IDX" ;

CREATE TABLE MySQL 命令如下:

CREATE TABLE `RSA_DATA` (
  `GENE_SYMBOL` varchar(50) DEFAULT NULL,
  `GENEID` int(11) DEFAULT NULL,
  `CRISPR` varchar(75) DEFAULT NULL,
  `RSASCORE` float DEFAULT NULL,
  `LOGP` float DEFAULT NULL,
  `BEST_ACTIVITY` float DEFAULT NULL,
  `RSA_HIT` int(11) DEFAULT NULL,
  `HIT_PER_GENE` int(11) DEFAULT NULL,
  `TOTAL_CRISPRS` int(11) DEFAULT NULL,
  `RSA_RANK` int(11) DEFAULT NULL,
  `SAMPLE_NAME` varchar(10) DEFAULT NULL,
  `FOLD_CHANGE` int(11) DEFAULT NULL,
  `EXPERIMENT_NUM` int(11) DEFAULT NULL,
  `CELL_LINE` varchar(75) DEFAULT NULL,
  `CRISPR_LIB` varchar(75) DEFAULT NULL,
  `CRISPR_LOT` varchar(25) DEFAULT NULL,
  `CAS9_VENDOR` varchar(50) DEFAULT NULL,
  `CAS9_LOT` varchar(25) DEFAULT NULL,
  `CRISPR_INFECT_DATE` date DEFAULT NULL,
  `CAS9_INFECT_DATE` date DEFAULT NULL,
  `CAS9_MOI` int(11) DEFAULT NULL,
  `FTE` varchar(50) DEFAULT NULL,
  `SAMPLE_NAME_LONG` varchar(150) DEFAULT NULL,
  `INDICATION` varchar(100) DEFAULT NULL,
  `LOW_CRISPR_COUNT` int(11) DEFAULT NULL,
  `MODIFICATION` varchar(20) DEFAULT NULL,
  `TIMEPOINT` varchar(10) DEFAULT NULL
);

最佳答案

对您的问题的几点评论:

  1. 你可能想尝试不同的chunksize
  2. Oracle/ExaData 端有 6 个索引,这当然会使其变慢
  3. 检查您的 ExaData 在此加载操作期间是否正忙/重载以执行其他操作
  4. 您可以尝试将数据加载到临时表中,然后将其复制到目标表中。如果您没有 [data guard/standby/streams/golden gate] - 您可能还想使用直接加载(无日志记录):insert/*+APPEND*/into ...
  5. 我会分析此加载期间的等待事件(在 Oracle 端),以了解您最多花在哪些地方

关于mysql - 在 oracle 中插入 pandas dataframe 非常慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39578373/

有关mysql - 在 oracle 中插入 pandas dataframe 非常慢的更多相关文章

  1. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  2. ruby-on-rails - 使用 HTTParty 的非常基本的 Rails 4.1 API 调用 - 2

    Rails相对较新。我正在尝试调用一个API,它应该向我返回一个唯一的URL。我的应用程序中捆绑了HTTParty。我已经创建了一个UniqueNumberController,并且我已经阅读了几个HTTParty指南,直到我想要什么,但也许我只是有点迷路,真的不知道该怎么做。基本上,我需要做的就是调用API,获取它返回的URL,然后将该URL插入到用户的数据库中。谁能给我指出正确的方向或与我分享一些代码? 最佳答案 假设API为JSON格式并返回如下数据:{"url":"http://example.com/unique-url"

  3. ruby - 如何在 Ruby 字符串中插入项目符号字符? - 2

    我正在尝试创建一个带有项目符号字符的Ruby1.9.3字符串。str="•"+"helloworld"但是,当我输入它时,我收到有关非ASCII字符的语法错误。我该怎么做? 最佳答案 你可以把Unicode字符放在那里。str="\u2022"+"helloworld" 关于ruby-如何在Ruby字符串中插入项目符号字符?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/1195

  4. ruby-on-rails - 无法安装 mysql2 0.3.14 gem - 2

    我看到其他人也遇到过类似的问题,但没有一个解决方案对我有用。0.3.14gem与其他gem文件一起存在。我已经完全按照此处指示完成了所有操作:https://github.com/brianmario/mysql2.我仍然得到以下信息。我不知道为什么安装程序指示它找不到include目录,因为我已经检查过它存在。thread.h文件存在,但不在ruby​​目录中。相反,它在这里:C:\RailsInstaller\DevKit\lib\perl5\5.8\msys\CORE\我正在运行Windows7并尝试在Aptana3中构建我的Rails项目。我的Ruby是1.9.3。$gemin

  5. ruby - 如何使用 ruby​​ mysql2 执行事务 - 2

    我已经开始使用mysql2gem。我试图弄清楚一些基本的事情——其中之一是如何明确地执行事务(对于批处理操作,比如多个INSERT/UPDATE查询)。在旧的ruby-mysql中,这是我的方法:client=Mysql.real_connect(...)inserts=["INSERTINTO...","UPDATE..WHEREid=..",#etc]client.autocommit(false)inserts.eachdo|ins|beginclient.query(ins)rescue#handleerrorsorabortentirelyendendclient.commi

  6. ruby - 如何在 Ruby 中生成一个非常大的随机整数? - 2

    我想在ruby​​中生成一个64位整数。我知道在Java中你有很多渴望,但我不确定你会如何在Ruby中做到这一点。另外,64位数字中有多少个字符?这是我正在谈论的示例......123456789999。@num=Random.rand(9000)+Random.rand(9000)+Random.rand(9000)但我认为这是非常低效的,必须有一种更简单、更简洁的方法来做到这一点。谢谢! 最佳答案 rand可以将范围作为参数:pa=rand(2**32..2**64-1)#=>11093913376345012184putsa.

  7. ruby - 在 ruby​​ 中使用自动创建插入数组 - 2

    我想知道是否可以通过自动创建数组来插入数组,如果数组不存在的话,就像在PHP中一样:$toto[]='titi';如果尚未定义$toto,它将创建数组并将“titi”压入。如果已经存在,它只会推送。在Ruby中我必须这样做:toto||=[]toto.push('titi')可以一行完成吗?因为如果我有一个循环,它会测试“||=”,除了第一次:Person.all.eachdo|person|toto||=[]#with1billionofperson,thislineisuseless999999999times...toto.push(person.name)你有更好的解决方案吗?

  8. ruby-on-rails - 在方法调用中插入 Ruby? - 2

    在我的用户模型中,我有一堆属性,例如is_foos_admin和is_bars_admin,它们决定允许用户编辑哪些类型的记录。我想干掉我的编辑链接,目前看起来像这样:'edit'ifcurrent_user.is_foos_admin?%>...'edit'ifcurrent_user.is_bars_admin?%>我想做一个帮助程序,让我传入一个foo或bar并返回一个链接来编辑它,就像这样:助手可能看起来像这样(这不起作用):defedit_link_for(thing)ifcurrent_user.is_things_admin?link_to'Edit',edit_poly

  9. Ruby 服务器在本地主机(teambox)之外非常慢 - 2

    我刚刚在我的Ubuntu9.10服务器上安装了TeamBox。我使用提供的服务器脚本在端口3000上启动并运行它。它的运行速度非常慢,从另一台计算机连接时每个HTTP请求最多需要30秒。我使用链接从shell加载TeamBox,一点也不花时间。然后我设置了一个SSH隧道,它再次运行得非常快。我通过此服务器上的apache以及SAMBA等运行了大约30个虚拟主机,没有任何问题。我该如何解决这个问题? 最佳答案 我的redmine(ruby,webrick)太慢了。现在我解决了这个问题:apt-getinstallmongrelruby

  10. Ruby 将对象插入现有的已排序对象数组 - 2

    我有以下现有的Dog对象数组,它们按age属性排序:classDogattr_accessor:agedefinitialize(age)@age=ageendenddogs=[Dog.new(1),Dog.new(4),Dog.new(10)]我现在想插入一条新的狗记录,并将它放在数组中的正确位置。假设我想插入这个对象:another_dog=Dog.new(8)我想把它插入到数组中,让它成为数组中的第三项。这是一个人为的示例,旨在演示我特别想如何将一个项目插入到现有的有序数组中。我意识到我可以创建一个全新的数组并重新对所有对象进行排序,但这不是我的目标。谢谢!

随机推荐