Oracle 迁移同步到 Datahub

NineData 数据复制支持将 Oracle 中的数据复制到 Datahub，构建全面的元数据管理系统。

前提条件

已将源和目标数据源添加至 NineData。如何添加，请参见创建数据源。
源的数据库类型为 Oracle，版本和架构说明如下：
- 支持的版本：23c、21c、19c、18c、12c、11g
- 支持的架构：Non-CDB、CDB
目标的数据库类型为 Datahub。

您必须拥有源数据源和目标数据源的如下权限：

复制类型	源数据源	目标数据源
结构复制	SELECT CONNECT、SELECT ANY DICTIONARY、SELECT ANY TABLE、SELECT CATALOG ROLE	ListProject、CreateTopic、GetTopic
全量复制	SELECT CONNECT、SELECT ANY DICTIONARY、SELECT ANY TABLE、SELECT CATALOG ROLE	ListProject、GetTopic、ListShard、PutRecords
增量复制	请参见本文附录 2：Oracle 增量复制账号权限说明。	ListProject、GetTopic、ListShard、PutRecords

如需进行增量复制，请确保 Oracle 数据源中已进行如下配置：

Oracle 的日志模式已设置为 ARCHIVELOG 模式（默认情况下为 NOARCHIVELOG）。

验证当前的日志模式：SELECT log_mode FROM v$database;
如果日志模式为 NOARCHIVELOG，执行下列步骤：
1. 关闭数据库：SHUTDOWN IMMEDIATE;
2. 启动并装载数据库：STARTUP MOUNT;
3. 执行开启归档命令：ALTER DATABASE ARCHIVELOG;
4. 启动数据库：ALTER DATABASE OPEN;

已开启 Supplemental Log，即附加日志（默认情况下不开启）。

验证附加日志是否开启：SELECT supplemental_log_data_all allc FROM v$database;
如果返回 NO，执行开启附加日志命令：
- ALTER DATABASE ADD SUPPLEMENTAL LOG DATA (ALL) COLUMNS;
//在数据库级别启用附加日志，对所有的表和所有的列生效，将占用较多资源。
- ALTER TABLE <database_name>.<table_name> ADD SUPPLEMENTAL LOG DATA (ALL) COLUMNS;
- ALTER DATABASE ADD SUPPLEMENTAL LOG DATA;
//在特定的表上启用附加日志，对该表中所有的列生效。

使用限制

执行数据同步前需评估源数据源和目标数据源的性能，同时建议业务低峰期执行数据同步。否则全量数据初始化时将占用源数据源和目标数据源一定的读写资源，导致数据库负载上升。
需要确保同步对象中的每张表都有主键或唯一约束、列名具有唯一性，否则可能会重复同步相同数据。

操作步骤

商业化通知

NineData 数据复制产品已商业化，您仍然可以保有 10 条复制任务免费使用，注意事项如下：

10 条复制任务中可以包含 1 条增量复制任务，规格为 Micro。
状态为已终止的任务不算在 10 条任务的限制内，如果您已经创建了 10 条复制任务，还想要继续创建，可以先终止之前的复制任务，然后再创建新任务。
创建复制任务时，仅可选择您已购买的复制规格，未购买的规格将以灰度显示，无法选择。如需购买，请通过页面右下角的客服图标联系我们。

登录 NineData 控制台。
在左侧导航栏单击数据复制 > 数据复制。
在数据复制页面，单击右上角的创建复制。

在数据源与目标页签，按照下表进行配置，并单击下一步。

参数	说明
任务名称	输入数据同步任务的名称，为了方便后续查找和管理，请尽量使用有意义的名称。最多支持 64 个字符。
源数据源	同步对象所在的数据源，此处选择需复制数据所在的数据源。
目标数据源	接收同步对象的数据源，此处选择目标 Datahub 数据源。
Datahub Project	选择目标 Datahub Project，源数据源中的数据将写入到该指定 Project 中。
目标对象命名规则	选择对象名称从源端迁移到目标端后的大小写转换规则。全部转小写：无论源端的命名规则如何，目标端的命名规则全部为小写。保持与源一致：沿用源端的命名规则。全部转大写：无论源端的命名规则如何，目标端的命名规则全部为大写。
复制类型	选择需要复制到目标数据源的内容。结构复制：只同步源数据源的库表结构，不同步数据。全量复制：同步源数据源的所有对象和数据，即全量数据复制。右侧的开关为周期性全量复制的开关，更多信息，请参见周期性全量复制。增量复制：在全量同步完成后，基于源数据源的日志进行增量同步。图标为增量操作类型配置，可以根据需求取消勾选某一些操作类型，取消勾选后，这些操作会在增量同步中被忽略。
复制规格（仅结构复制的情况下不可选）	仅在任务包含全量复制或增量复制的情况下可选。复制任务的规格，规格越大复制的速率越高，将鼠标悬浮于图标上即可查看每个规格对应的速率和配置信息。每个规格中显示了可用数量及规格总数，当可用数量为 0 时将以灰度显示，无法选择。
增量开始时间	复制类型仅为增量复制时需要选择。从启动时间开始：以当前复制任务开始时间为基准，进行增量复制。自定义时间：选择增量复制开始的时间点，您可以根据您的业务所在地域按需选择时区。如果将时间点配置为当前复制任务开始前，则如果该时间段内有 DDL 操作，复制任务将失败。
目标库同名对象处理策略	预检查报错并停止任务：预检查阶段检测到目标表中存在数据时，停止任务。忽略目标存量数据，追加写入：预检查阶段检测到目标表中存在数据时，忽略该部分数据，追加写入其他数据。

在选择复制对象页签，配置下列参数，然后单击下一步。

参数	说明
复制对象	选择需要复制的内容，您可以选择全部实例复制源库所有内容，也可以选择自定义对象，在源对象列表中选中需要复制的内容，单击>添加到右侧目标对象列表。

如果您需要创建多条相同复制对象的复制链路，可以创建一个配置文件，在新建任务的时候导入即可。单击右上角的导入配置，再单击下载模板，将配置文件模版下载到本地，编辑完成后单击上传文件上传该配置文件即可实现批量导入。配置文件说明：

参数	说明
`source_table_name`	需同步的对象所在的源表名。
`destination_table_name`	接收同步对象的目标表名。
`source_schema_name`	需同步的对象所在的源 Schema 名。
`destination_schema_name`	接收同步对象的目标 Schema 名。
`source_database_name`	需同步的对象所在的源库名。
`target_database_name`	接收同步对象的目标库名。
`column_list`	需要同步的字段列表。
`extra_configuration`	额外的配置信息，您可以在这里配置如下信息： `column_rules`：用于定义字段的映射关系与取值规则。字段说明： `column_name`：原列名。 `destination_column_name`：指定目标列名。 `column_value`：指定字段值，可为 SQL 函数或常量值。 `filter_condition`：用于指定行级数据的过滤条件，只有满足条件的行会被复制。

tip

extra_configuration 的示例内容如下：

{
  "extra_config":{
    "column_rules":[
      {
        "column_name": "created_time", //指定需要执行列名映射的原列名。
        "destination_column_name": "migrated_time", //目标列名映射为 "migrated_time"。
        "column_value": "current_timestamp()" //将列的字段取值更改为当前时间戳。
      }
    ],
    "filter_condition": "id != 0" //ID 不为 0 的行才会同步。
  }
}

配置文件的整体示例内容请参见下载的模版。

在"配置映射"页签，可以单独配置需要复制到 Datahub 的每个表，单击目标表右侧的列选择与处理配置可以单独配置每个列。如果在配置映射阶段，源和目标数据源中有更新，可以单击页面右上角的刷新元数据按钮，重新获取源和目标数据源的信息。配置完成后，单击保存并预检查。
在列选择与处理配置中，还可以配置系统字段配置。Datahub 作为一个队列产品，不支持随机的 UPDATE/DELETE 操作，因此 NineData 需要往用户的 Datahub 中新增如下几个元数据字段，为每条投递到 Datahub 的数据标识特性。
元数据字段名 元数据字段取值
_record_id_ ${nd_record_id}
_operation_type_ ${nd_operation_type}
_execution_time_ ${nd_exec_timestamp}
_before_image_ ${nd_before_image}
_after_image_ ${nd_after_image}
您也可以按需添加、修改元数据字段名称或取值，关于各字段取值的详细信息，请参见本文附录。
在预检查页签，等待系统完成预检查，预检查通过后，单击启动任务。
tip
您可以勾选开启数据一致性对比。在同步任务完成后，自动开启基于源数据源的数据一致性对比，保证两端数据一致。根据您选择的复制类型，开启数据一致性对比的启动时机如下：
- 结构复制：结构复制完成后启动。
- 结构复制+全量复制、全量复制：全量复制完成后启动。
- 结构复制+全量复制+增量复制、增量复制：当增量数据首次和源数据源一致且延迟为 0 秒时启动。您可以单击查看详情，在复制详情页面中查看同步延迟。
- 如果预检查未通过，需要单击目标检查项右侧操作列的详情，排查失败的原因，手动修复后单击重新检查重新执行预检查，直到通过。
- 检查结果为警告的检查项，可视具体情况修复或忽略。
在启动任务页面，提示启动成功，同步任务开始运行。此时您可以进行如下操作：
- 单击查看详情可以查看同步任务各个阶段的执行情况。
- 单击返回列表可以返回数据复制任务列表页面。

元数据字段名	元数据字段取值
`_record_id_`	${nd_record_id}
`_operation_type_`	${nd_operation_type}
`_execution_time_`	${nd_exec_timestamp}
`_before_image_`	${nd_before_image}
`_after_image_`	${nd_after_image}

查看同步结果

登录 NineData 控制台。
在左侧导航栏单击数据复制 > 数据复制。

在数据复制页面单击目标同步任务的任务 ID，页面说明如下。

result

序号	功能	说明
1	同步延迟	源数据源和目标数据源之间的数据同步延迟，0 秒表示两端之间没有延迟，此时您可以选择将业务切换到目标数据源，实现平滑迁移。
2	配置告警	配置告警后，系统会在任务失败时通过您选择的方式通知您。
3	更多	暂停：暂停任务，仅状态为运行中的任务可选。类似创建：创建一个和当前任务配置相同的新复制任务。终止：结束未完成或监听中（即增量同步中）的任务，终止任务后无法重启任务，请谨慎操作。如果同步对象中包含触发器，会弹出触发器复制选项，请按需选择。删除：删除任务，任务删除后无法恢复，请谨慎操作。
4	结构复制（包含结构复制的场景下显示）	展示结构复制的进度和详细信息。单击页面右侧的日志：查看结构复制的执行日志。单击页面右侧的：查看最新的信息。单击列表中目标对象右侧操作列的查看 DDL：可以查看 SQL 回放。
5	全量复制（包含全量复制的场景下显示）	展示全量复制的进度和详细信息。单击页面右侧的监控：查看全量复制过程中的各监控指标。全量复制过程中，还可以单击监控指标页面右侧的限流设置，限制每秒写入到目标数据源的速率。单位为行/秒。单击页面右侧的日志：查看全量复制的执行日志。单击页面右侧的：查看最新的信息。
6	增量复制（包含增量复制的场景下显示）	展示增量复制的各项监控指标。单击页面右侧的查看线程：查看当前复制任务正在执行中的操作，包含：线程号：复制任务分多个线程执行复制操作，展示当前进行中的线程号。执行 SQL：当前线程正在执行中的 SQL 语句详情。提交响应时间：当前线程的响应时间，如果该数值变大，则代表当前线程可能由于某些原因卡住。事件时间：当前线程开启的时间戳。状态：当前线程的状态。单击页面右侧的限流设置：限制每秒写入到目标数据源的速率。单位为行/秒。单击页面右侧的日志：查看增量复制的执行日志。单击页面右侧的：查看最新的信息。
7	修改对象	展示同步对象的修改记录。单击页面右侧的修改同步对象，可对同步对象进行配置。单击页面右侧的：查看最新的信息。
8	数据对比	展示源数据源和目标数据源之间对比的结果。如果您未开启数据对比，请单击页面中的开启数据对比。单击页面右侧的重新对比：对当前源和目标两端数据重新发起对比。单击页面右侧的停止：对比任务开始后，可单击该按钮立即停止对比任务。单击页面右侧的日志：查看一致性对比的执行日志。单击页面右侧的监控（仅数据对比显示）：查看对比 RPS（每秒对比的记录数）的走势图。单击详情可以查看更早之前的记录。在对比列表右侧操作列单击（数据页签下只在不一致情况下显示）：查看源端和目标端的对比详情。在对比列表右侧操作列单击（不一致情况下显示)：生成变更 SQL，您可以直接复制该 SQL 到目标数据源执行，修改不一致的内容。
9	展开	展示当前复制任务的详细信息。常用选项：导出表配置：导出当前任务的库表配置，可在新建复制任务时快速导入，以快速创建多条相同复制对象的复制链路。告警规则：配置当前任务的告警策略。

附录 1：数据类型映射说明

类型	Oracle 数据类型	Datahub 默认映射类型
Build-in data type	CHAR [(size [BYTE \| CHAR])]	STRING
	NCHAR[(size)]	STRING
	VARCHAR2(size [BYTE \| CHAR])	STRING
	NVARCHAR2(size)	STRING
	CLOB	STRING
	NCLOB	STRING
	LONG	STRING
	NUMBER [ (p [, s]) ]	DECIMAL
	FLOAT [(p)]	FLOAT
	DATE	STRING
	BINARY_FLOAT	FLOAT
	BINARY_DOUBLE	DOUBLE
	TIMESTAMP [(fractional_seconds_precision)]	TIMESTAMP
	TIMESTAMP [(fractional_seconds_precision)] WITH TIME ZONE	TIMESTAMP
	TIMESTAMP [(fractional_seconds_precision)] WITH LOCAL TIME ZONE	TIMESTAMP
	INTERVAL YEAR [(year_precision)] TO MONTH	STRING
	INTERVAL DAY [(day_precision)] TO SECOND [(fractional_seconds_precision)]	STRING
	RAW(size)	STRING
	LONG RAW	STRING
	BLOB	STRING
	BFILE	STRING
User Defined Data Type	REF	STRING
	Varray	STRING
	Nested Table	STRING

附录 2：预检查项一览表

检查项	检查内容
源数据源连接检查	检查源数据源网关状态、实例是否可达、用户名及密码准确性
目标数据源连接检查	检查目标数据源网关状态、实例是否可达、用户名及密码准确性
源库权限检查	检查源数据库的账号权限是否满足要求
目标库权限检查	检查待复制对象在目标数据库中是否已存在数据
源库日志归档模式检查	源库日志归档模式是否是 ARCHIVELOG
源库附加日志检查	源库附加日志必须开启，并且设置为 ALL
源库无主键表存在性校验	检查待复制对象是否不存在主键或唯一键

附录 3：Oracle 增量复制账号权限说明

Oracle 12c 以下
Oracle 12c 及以上

指定一个 DBA 权限用户，用于 Oracle 为源的增量数据复制任务。

-- 创建 NineData 同步账号
CREATE USER test_dba IDENTIFIED BY "ninedatasync";
-- 授予该账号 DBA 权限
GRANT dba to test_dba;

指定一个 DBA 权限用户，用于 Oracle 为源的增量数据复制任务。

-- 创建全局环境下的 NineData 同步账号
CREATE USER c##test_dba IDENTIFIED BY "ninedatasync";
-- 授予该账号 DBA 和连接权限，并指定权限的范围
GRANT dba, connect to c##nine_data container=all;

附录 4：系统参数说明

为了在 DataHub 中实现增量数据的存储，NineData 提供了一套默认的系统参数与元数据字段，用于标识数据特性。以下是系统参数的具体含义和使用场景。

参数名称	含义与用途
${nd_record_id}	每条数据记录（Record）的唯一 ID。在 UPDATE 操作中，更新前后的记录需保持相同的 record_id 以实现变更关联。
${nd_exec_timestamp}	Record 操作的运行时间。
${nd_database_name}	表所属的数据库名称，便于区分数据来源。
${nd_table_name}	Record 所对应表的名称，用于精确定位变更记录。
${nd_operation_type}	Record 变更操作类型，取值如下： I：插入 U：更新 D：删除对于全量同步，均为 I。
${nd_before_image}	前镜像标识，表示目标 Record 状态为变更发生前，即当前数据发生过变更。取值： Y：前镜像。 N：非前镜像。例如：INSERT 操作为 N；DELETE 操作为 Y；UPDATE 操作前为 Y，操作后为 N。
${nd_after_image}	后镜像标识，表示目标 Record 状态为变更发生后，即当前数据为最新状态。取值： Y：后镜像。 N：非后镜像。例如：INSERT 操作为 Y；DELETE 操作为 N；UPDATE 操作前为 N，操作后为 Y。
${nd_datasource}	数据源信息：数据来源的 IP 和端口号，格式为 `ip:port`。

Oracle 迁移同步到 Datahub

前提条件​

使用限制​

操作步骤​

查看同步结果​

附录 1：数据类型映射说明​

附录 2：预检查项一览表​

附录 3：Oracle 增量复制账号权限说明​

附录 4：系统参数说明​

相关文档​