github.com/pingcap/tiflow@v0.0.0-20240520035814-5bf52d54e205/docs/design/2020-03-04-ticdc-design-and-architecture-cn.md

github.com/pingcap/tiflow@v0.0.0-20240520035814-5bf52d54e205/docs/design/2020-03-04-ticdc-design-and-architecture-cn.md (about)

     1  # 系统架构
     2  
     3  TiCDC 是一款通过拉取 TiKV 变更日志实现的 TiDB 增量数据同步工具。具有还原数据到与上游任意 TSO 一致状态的能力，同时提供开放数据协议，支持其他系统订阅数据变更。
     4  
     5  TiCDC 集群由多个无状态节点构成，通过 PD 内部的 etcd 实现高可用。集群支持创建多个同步任务，向多个不同的下游进行数据同步。TiCDC 的系统架构如下图所示：
     6  
     7  <img src="../media/cdc_architecture.svg?sanitize=true" alt="architecture" width="600"/>
     8  
     9  ## 系统组件
    10  
    11  - TiKV：只输出 kv change logs
    12  
    13    - 内部逻辑拼装 kv change log
    14    - 提供输出 kv change logs 的接口，发送数据包括实时 change logs 和增量扫的 change logs
    15  
    16  - Capture：TiCDC 运行进程，多个 capture 组成一个 TiCDC 集群，负责 kv change log 的同步
    17    - 每个 capture 负责一部分的 kv change logs 拉取
    18    - 对拉取的一个或多个 kv change log 进行排序
    19    - 向下游还原事务或按照 TiCDC open protocol 进行输出
    20  
    21  ## 逻辑概念
    22  
    23  - KV change log：TiKV 提供的隐藏大部分内部实现细节的的 row changed event
    24  - TiCDC open protocol：通过 MQ 对外提供的开放 TiCDC 协议，协议输出的 cdc log 具备以下两种处理能力
    25  
    26    - 按照 row 顺序更新目标系统
    27    - 还原等价事务逻辑同步到目标系统
    28  
    29  - Capture：一个 TiCDC 节点独立运行时的逻辑抽象
    30  - Owner：一种 capture 的角色，每个 TiCDC 集群同一时刻最多只存在一个 capture 具有 owner 角色，负责集群内部的调度
    31  - Processor：capture 内部的逻辑线程，每个 processor 负责处理同一个同步流中一个或多个 table 的数据。一个 capture 节点可以运行多个 processor
    32  - ChangeFeed：一个由用户启动的从上游 TiDB 同步到下游的任务，其中包含多个 task，task 会分布在不同的 capture 节点进行数据同步处理
    33  
    34  # 模块设计
    35  
    36  ## TiKV 接口
    37  
    38  ### EventFeed rpc
    39  
    40  TiKV 对 TiCDC 提供一个隐藏大部分内部实现细节的的 row changed event 的接口，该接口会扫描指定 region 的 kv range，通过 gRPC stream 持续返回 row changed event。协议的细节可以参考 [kvproto/cdcpb.proto](https://github.com/pingcap/kvproto/blob/master/proto/cdcpb.proto)。以下会分别描述建立数据流后 TiCDC 和 TiKV 的处理行为。
    41  
    42  ```
    43  service ChangeData { rpc EventFeed(ChangeDataRequest) returns(stream ChangeDataEvent);}
    44  ```
    45  
    46  ### TiCDC 处理增量扫和实时数据流
    47  
    48  TiCDC 使用 EventFeed 接口获取 ts 之后的数据的流程是：
    49  
    50  1. 指定 ts 建立 EventFeed stream，接口返回的实时数据先在 TiCDC 内部缓存。(EventFeed stream 会返回 P + C，所以建立 stream 的时候应该要先扫下还没提交的数据，不然可能后续只拿到个 C 没有对应的 value)。
    51  2. 在 EventFeed 接口持续获取 raftstore 的 snapshot 扫出的 ts 后的数据变更， 拿到的信息包括：(key, value, Put/Delete, ts)。（如果对应的 row kv 已经 commited，返回 commited kv record，如果没有 commited，需要返回 prewrite record），这一步就是增量扫的环节。
    52  3. 增量扫完成时，会收到 INITIALIZED 类型的 event，TiCDC 继续处理 EventFeed 返回的实时数据。
    53  
    54  ### TiKV 具体行为
    55  
    56  TiKV 建立 TiCDC 链接后的行为分为两个阶段：
    57  
    58  1. 增量扫。在这个阶段，TiKV 会根据 TiCDC 请求中的 checkpoint ts 进行增量扫，输出的内容有：
    59     1. Prewrite，发生在 (checkpoint ts, current ts] 的上锁记录
    60     2. Committed，发生在 (checkpoint ts, current ts] 的提交记录，即 prewrite + commit 之后的结果
    61     3. Initialized，代表增量扫完成，后续不会有 committed 内容输出
    62  2. 推流。这个阶段贯穿于整个 TiCDC 链接生命周期，将 region 上的写入实时推到下游，输出的内容有：
    63     1. Prewrite，region 上的上锁操作
    64     2. Commit，region 上的提交操作
    65     3. ResolvedTS，一个特殊的 TS，保证该 region 后续不会再出现小于该 TS 的提交操作
    66  
    67  注意这两个阶段是同时开始的（即建立连接）。
    68  
    69  ![tikv cdc stream init](../media/tikv_cdc_stream_init.png)
    70  
    71  ### KV event
    72  
    73  接口返回的 Event 包含 4 种类型，分别是：
    74  
    75  - Entries：通常的 KV log event，对应的 log 类型有以下 6 种：
    76  
    77    - UNKNOWN：未知的 log 类型
    78    - PREWRITE：TiKV 在 2PC prewrite 阶段写入的数据
    79    - COMMITT，TiKV 在 2PC commit 阶段最后 commit 的数据
    80    - ROLLBACK，TiKV 在 2PC commit 阶段发生 rollback 的数据
    81    - COMMITED，代表增量扫过程中遇到的 commited 的内容
    82    - INITIALIZED，代表增量扫完成
    83  
    84  - Admin：目前 TiCDC 中不需要处理这种类型的 event
    85  - Error：接口出现错误是返回该类型 event，包括以下 3 种错误
    86  
    87    - errorpb.NotLeader
    88    - errorpb.RegionNotFound
    89    - errorpb.EpochNotMatch，region 分裂后通常会在已经建立的 gRPC stream 中返回此错误，TiCDC 遇到该错误时会重新扫描 kv range 获取新的 region 信息，并重新建立新的同步数据流。
    90  
    91  - ResolvedTs：为了数据还原的一致性，只有当所有 region 都保证**在某个 ts 之前的所有数据都已经被 TiCDC 获取到**，TiCDC 才会对 ts 前的 kv change event 进行排序并向下游进行事务还原。 因此对于一定时间没有任何数据写入的 region，需要提供某种机制推进该 ts，以降低 TiCDC 还原事务的延迟。ResolvedTs 类型 event 就是解决这个问题。
    92  
    93  ## Capture 组件
    94  
    95  Capture 运行过程中各组件需要持久化的数据，包括同步任务的配置，同步任务的同步状态，capture 的信息，owner 的 leader 选举信息，processor 的同步状态信息，目前都存储在 etcd 中。Capture 内部各组件的逻辑关系如图所示：
    96  
    97  ![capture architecture](../media/capture_architecture.png)
    98  
    99  ### Owner 选举策略
   100  
   101  1. 每个 capture 节点启动时生成一个 UUID 作为 Capture ID，并向 etcd 注册 capture 信息
   102  2. 每个 capture 会使用 [Election](https://godoc.org/github.com/coreos/etcd/clientv3/concurrency#Election) 参与 owner 选举，最多只有一个 capture 节点会选举成功成为 owner
   103  
   104  ### Owner 角色
   105  
   106  Owner 维护全局的同步状态，会对集群的同步进行监控和适当的调度，owner 运行有以下逻辑：
   107  
   108  - table 同步调度
   109  
   110    - 调度 table 的同步任务，分发到某个节点或从某个节点删除
   111    - 维护运行的 processor 状态信息，对于异常节点进行清理
   112  
   113  - 执行处理 DDL，向下游同步 DDL
   114  - 更新每一个 changefeed 的全局的 CheckpointTs 和 ResolvedTs
   115  
   116  ### Processor 角色
   117  
   118  当 capture watch etcd 发现有新分配的 changefeed 同步任务到自己节点上时，会创建一个新的 processor 来进行数据同步 ，每个 processor 运行有以下逻辑：
   119  
   120  - 建立 EventFeed gRPC stream 拉取 kv change event
   121  
   122    - processor 负责同步哪些表由 owner 调度，表的调度信息储存在 etcd 中
   123    - processor 创建时会读取被分配了哪些表进行同步，将这些表的 table id 按照 TiDB 内部的 key 编码逻辑进行编码得到一些需要拉取 kv change log 的 key range，processor 会综合 key range 和 region 分布信息创建多个 EventFeed gRPC stream。
   124    - processor 运行过程中也会监控同步信息，对于增加或删除的表调整 EventFeed gRPC stream。
   125  
   126  - 维护本地 ResovledTs 和 CheckpointTs
   127  - 根据全局 ResolvedTs 推进自己节点的数据向下游同步
   128  
   129  ### DML 和 DDL 的正确性保证
   130  
   131  - 全局 ResolvedTs 由 owner 计算，取值为所有 processor 的 ResolvedTs 和 DDL puller 的 ResolvedTs 的最小值
   132  - 所有 processor 严格按照全局 ResolvedTs 进行数据同步，只会同步数据到全局 ResolvedTs。同步数据后会更新本地 CheckpointTs
   133  - 同步 DDL 前需要保证所有 processor 的 CheckpointTs 到达 DDL commitTs，之后才会向下游执行 DDL
   134  
   135  # 高可用策略
   136  
   137  目前高可用采用的策略如下所示：
   138  
   139  - 集群内有且仅有一个 owner 角色
   140  - owner 出现异常后可以在其他 capture 节点自动选举出新 owner
   141  - owner 负责 table 同步的调度，采用 etcd 统一存储状态来进行调度，owner 将调度结果直接写入 etcd，processor 按照状态进行对应行为
   142  - processor 所在节点出现异常后集群会将 table 调度到其他节点
   143  
   144  # TiCDC open protocol
   145  
   146  设计细节：[TiCDC Kafka 同步协议](2020-02-24-ticdc-mq-protocol-cn.md)
   147  
   148  # 使用限制
   149  
   150  同步到 TiDB/MySQL，需要满足以下条件才可以保证正确性
   151  
   152  - 表必须要有主键或者唯一索引
   153  - 如果只存在唯一索引，至少有一个唯一索引的每一列在表结构中明确定义 NOT NULL