今天主要想记录下相关的学习资料,等整个基础学习沉淀下来,在整体进行部署和实施。

整体的架构图:

整体思想:对数据库表开启cdc捕获功能,借助aws的dms数据库迁移功能,进行数据的完整复制或者差异性复制,然后同步到kafka集群中,ck通过消费kafka中的topic,拉取同步到ck的指定表中。 

注意:这里的源数据源是:sql server的数据表 目标数据源:kafka的表对象

1.对数据库以及指定的数据库表开启cdc功能,相关的文章:

SQL server 2016 开启CDC功能 捕获变更数据

2.公司使用的是aws的sql server 数据库,aws 自带的dms,可以用来做数据库的迁移和数据备份.

相关的视频学习资料和aws的文档:

Detailed Demo - AWS DMS for Data Migration in Redshift from SQL Server

微軟MSSQL資料轉移part02-AWS DMS-CDC持續差異性備份

使用 Amazon DMS 为持续复制创建任务

在 SQL Server 源中使用持续复制 (CDC) 的先决条件

Migrating your on-premises SQL databases to AWS RDS SQL Server using AWS DMS

3.将kafka作为dms的target:

将 Apache Kafka 作为 Amazon Database Migration Service 的目标

 4.将kafka数据同步到ck中

Clickhouse Engine kafka 将kafka数据同步clickhouse

CK与kafka的集成

Fast Insight from Fast Data: Integrating ClickHouse and Apache Kafka

更多推荐

在aws中如何将sql server数据库表数据同步到clickhouse中