`
shylhd
  • 浏览: 74312 次
  • 性别: Icon_minigender_2
  • 来自: 河北
最近访客 更多访客>>
社区版块
存档分类
最新评论

数据库增量数据的几种方式

阅读更多

  a.触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。触发器方式的优点是数据抽取的性能较高,缺点是要求业务表建立触发器,对业务系统有一定的影响。

          b.时间戳:它是一种基于快照比较的变化数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更新,即表的其它字段的数据发生改变时,自动更新时间戳字段的值。有的数据库不支持时间戳的自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。同触发器方式一样,时间戳方式的性能也比较好,数据抽取相对清楚简单,但对业务系统也有很大的倾入性(加入额外的时间戳字段),特别是对不支持时间戳的自动更新的数据库,还要求业务系统进行额外的更新时间戳操作。另外,无法捕获对时间戳以前数据的delete和update操作,在数据准确性上受到了一定的限制。

   c.全表比对:典型的全表比对的方式是采用MD5校验码。ETL工具事先为要抽取的表建立一个结构类似的MD5临时表,该临时表记录源表主键以及根据所有字段的数据计算出来的MD5校验码。每次进行数据抽取时,对源表和MD5临时表进行MD5校验码的比对,从而决定源表中的数据是新增、修改还是删除,同时更新MD5校验码。MD5方式的优点是对源系统的倾入性较小(仅需要建立一个MD5临时表),但缺点也是显而易见的,与触发器和时间戳方式中的主动通知不同,MD5方式是被动的进行全表数据的比对,性能较差。当表中没有主键或唯一列且含有重复记录时,MD5方式的准确性较差。

   d.日志对比:通过分析数据库自身的日志来判断变化的数据。

分享到:
评论

相关推荐

    ETL抽取方式的详细介绍

    从数据库中抽取数据一般有一下几种方式。 1、全量抽取 全量抽取类似于数据迁移或复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单。 2、...

    数据库灾难性恢复(数据库技术;灾难性;恢复;数据备份)

    DB2 提供了几种备份,包括脱机备份、联机备份和增量备份。从备份恢复所需的时间取决于数据库的大小和可用于执行恢复的硬件资源。 由于数据库备份只捕获时间点的数据,因此无法通过一个简单恢复来恢复备份之后发生的...

    Oracle基于日志的数据备份

    在一般的ETL过程中,对于增量抽取,无非是在数据上加时间截,全记录比对,关键字段比对,日志分析抽取等几种方法,要么需要修改原表结构,要么需要大量的算法,要么借助第三方的工具实现。Oracle从9i开始引入的CDC...

    Oracle数据库管理员技术指南

    3.3.2 创建几个大的联机重做日志文件 3.3.3 导入过程中关闭归档方式 3.3.4 分开导出转储文件、数据表空间、 回退段和联机重做日志文件 3.3.5 最小化检查点 3.3.6 单独创建索引 3.3.7 设置大的初始化参数 SORT_...

    数据库系统概论-SQL-CH10-作业解答.doc

    转储还可以分为海量转储和增量转储两种方式。 海量转储是指每次转储全部数据库。增量转储则指每次只转储上一次转储后更新过的 数据。从恢复角度看,使用海量转储得到的后备副本进行恢复一般说来更简单些。但如 果...

    数据仓库的概念及特点

    数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。 <br> ⑶数据的表现:数据表现...

    数据库的备份与恢复方法.doc

    在日常的生产环境中,数据库中的数据存在丢失的风险,为了避免数据的丢失...造成数据库中的数据丢失的情况也分好几种:程序发生错误、人为的操作失误、计算机宕机、磁盘损坏、天灾等等都有可能造成数据库中的数据丢失。

    企查查企业信息爬虫 ,企查查app每日新增企业抓取,可以进行每日的增量抓取、企业数据、工商数据等等。.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    Powerbuilder9.0实用教程源代码

    3.5.1 PowerBuilder与数据库连接的3种方式 97 3.5.2 使用专用接口连接外部数据源 97 3.5.3 使用ODBC数据源管理器连接外部数据源 98 3.5.4 测试连接 100 3.5.6 获取外部数据源连接代码 100 3.6 使用数据管道 100...

    oracle详解

    导入/导出是ORACLE幸存的最古老的两个命令行工具,其实我从来不认为Exp/Imp是一种好的备份方式,正确的说法是Exp/Imp只能是一个好的转储工具,特别是在小型数据库的转储,表空间的迁移,表的抽取,检测逻辑和物理...

    集值有序信息系统中更新逼近的增量方法

    增量学习是一种用于动态数据库中知识发现的有效技术,它使您能够从新数据中获取更多知识,而又不会忘记先前的知识。 粗糙集理论已成功用于信息系统中的分类分析。 集值信息系统是单值信息系统的广义模型,可以分为两...

    计算机二级公共基础知识

    顺序存储方式主要用于线性的数据结构,它把逻辑上相邻的数据元素存储在物理上相邻的存储单元里,结点之间的关系由存储单元的邻接关系来体现。 链式存储结构就是在每个结点中至少包含一个指针域,用指针来体现数据...

    爬虫开发技巧总结和入门教程知识点总结.docx

    深度爬虫与广度爬虫:理解两种不同的爬取策略,并能根据需求选择合适的爬取方式。 网络爬虫法律合规:熟悉并遵循各国关于网络爬虫的相关法律法规,尊重版权,不得非法获取和使用受保护的信息。 爬虫策略优化:如...

    Taobao oceanbase代码

     OceanBase以增量方式记录一段时间内的表格数据的增删改,从而保持着表格主体数据在一段时间内相对稳定,其中增删改的数据称为动态数据(通常在内存,也称为内存表),而一段时间内相对稳定的主体数据称为基准数据,...

    oracle学习文档 笔记 全面 深刻 详细 通俗易懂 doc word格式 清晰 连接字符串

    说明:修改用户密码一般有两种方式,一种是通过命令password修改,另一种是通过语句alter user实现,如果要修改他人的密码,必须要具有相关的权限才可以 用法: 方式一 password [用户名] 方式二 alert user 用户名...

    orcale常用命令

    Oracle数据库有哪几种启动方式 说明: 有以下几种启动方式: 1、startup nomount 非安装启动,这种方式启动下可执行:重建控制文件、重建数据库 读取init.ora文件,启动instance,即启动SGA和后台进程,这种启动...

    网络爬虫调研报告.docx

    2.1.2工作流程 Nutch架构图 Nutch工作流程图 Nutch工作流程: 建立初始URL集合分析 初始URL集的建立有两种方式:超链接和站长提交。 网络爬虫调研报告全文共11页,当前为第2页。超链接是指机器人程序根据网页链到...

    深入解析Oracle.DBA入门进阶与诊断案例

    1.3.2 几种关闭方式的对比 48 第2章 控制文件与数据库初始化 51 2.1 控制文件的内容 51 2.2 SCN 53 2.2.1 SCN的定义 53 2.2.2 SCN的获取方式 53 2.2.3 SCN的进一步说明 54 2.3 检查点(Checkpoint) ...

Global site tag (gtag.js) - Google Analytics