草庐IT

表格识别与内容提炼技术理解及研发趋势

引言:表格是各类文档中常见的对象,其结构化的组织形式方便人们进行信息理解和提取。表格的种类根据有无边框可以划分有线表、少线表、无线表。表格样式复杂多样,如存在背景填充、光照阴影、单元格行列合并等情况。大数据时代存在大量电子文档,应用表格识别技术能够减少表格处理时间,因此表格识别是文档理解领域的重要研究课题,也是合合信息这几年的技术突破点方向之一。表格识别主要包括表格检测和表格结构识别两个子任务。表格检测主要检测表格主体,即样本中表格区域。表格结构识别是对表格区域进行分析,提取表格中的数据与结构信息,得到行列分布与逻辑结构。未经特殊说明,以下表格识别专指表格结构识别。研究现状与解决方案:近年来,

表格识别与内容提炼技术理解及研发趋势

引言:表格是各类文档中常见的对象,其结构化的组织形式方便人们进行信息理解和提取。表格的种类根据有无边框可以划分有线表、少线表、无线表。表格样式复杂多样,如存在背景填充、光照阴影、单元格行列合并等情况。大数据时代存在大量电子文档,应用表格识别技术能够减少表格处理时间,因此表格识别是文档理解领域的重要研究课题,也是合合信息这几年的技术突破点方向之一。表格识别主要包括表格检测和表格结构识别两个子任务。表格检测主要检测表格主体,即样本中表格区域。表格结构识别是对表格区域进行分析,提取表格中的数据与结构信息,得到行列分布与逻辑结构。未经特殊说明,以下表格识别专指表格结构识别。研究现状与解决方案:近年来,

代码坏味道(二)

1、可变数据  数据更新导致,而另外一处期待不同的值  对应的重构手法:封装变量、拆分变量、移动语句、提炼函数、将查询函数和修改函数分离、移除设值函数、查询取代派生变量、函数组合成类、函数组合成变换、引用对象改为值对象  欠理解2、发散式变化  每次只关心一个上下文(一旦产生修改,跳到系统某个点,只在该处做修改)  对应的重构手法:拆分阶段、搬移函数、提炼函数、提炼类3、霰弹式修改  类似于发散式变化,但是又恰恰相反(没明白书里这话是什么意思)  对应重构手法:搬移函数、搬移字段、函数组合成类、函数组合成变换、拆分阶段、内联函数、内联类4、依恋情结  最大化区域内部交互、最小化跨区域交互,也可

代码坏味道(二)

1、可变数据  数据更新导致,而另外一处期待不同的值  对应的重构手法:封装变量、拆分变量、移动语句、提炼函数、将查询函数和修改函数分离、移除设值函数、查询取代派生变量、函数组合成类、函数组合成变换、引用对象改为值对象  欠理解2、发散式变化  每次只关心一个上下文(一旦产生修改,跳到系统某个点,只在该处做修改)  对应的重构手法:拆分阶段、搬移函数、提炼函数、提炼类3、霰弹式修改  类似于发散式变化,但是又恰恰相反(没明白书里这话是什么意思)  对应重构手法:搬移函数、搬移字段、函数组合成类、函数组合成变换、拆分阶段、内联函数、内联类4、依恋情结  最大化区域内部交互、最小化跨区域交互,也可
12