HyperLoop: Group-Based NIC-Offloading to Accelerate Replicated Transactions in Multi-Tenant Storage Systems

0 Abstract

Replicated Transaction
- DB為了確保availability跟durability，會將data複製成多份存在各處
- Replicated Transaction就是將這些data同時update(同步)，確保consistancy
- 會涉及CPU及locking, 故latency高且不穩定
現有解法(如kernel bypass, 傳統RDMA)，僅適用於單一storage system上的RT
- 在多replica時，需要CPU I/O polling
- CPU會參與transaction每個步驟
- 故不適用 Multi-Tenant Storage Systems
HyperLoop 創新點
- RDMA WAIT
  - buildin cmd但少用
  - 當接收到特定的op後，wait才會activate我們pre-post的RDMA ops
  - 可避免CPU polling
- 可以主動update其他NIC的work queue entry的內容
  - 要修改NIC driver

No replica CPU involvement on the critical path
Provide ACID operation
End-host only implementation based on commodity hardware
- 只要動client跟replica的硬體，不用動到switch

Net primitive lib: 實作四個group network primitives(by RDMA)
- 提供Replicated Transactions的寫入/同步等
- 不涉及Replica的CPU
RDMA NIC:
- 接收上個NIC來的封包後，執行對應的memory ops, 再forward封包到下一個replica

傳統的RDMA為什麼需要CPU Polling
- Client -> Replica#1: 用RDMA直接送，不用經CPU
- Replica#1 -> Replica#2: CPU Polling
  - 因要forward給#2的東西，是根據client送來的而定
  - 故#1會pre-post recv request，再定時polling自己的complete queue
  - 確定client送完東西後，才能決定何時要forward哪些東西給#2 (when and what)
- 照此道理，每個replica的CPU都必須做polling，等到上一個replica送完東西後，才知道要何時送哪些東西給下個replica
- 故Hyperloop便讓replica自己偵測recv complition，並自動forward對應event到下一個replica，藉此避開polling
  - => RDMA WAIT
RDMA WAIT (When)
- 每個replica都要pre-post RECV跟WAIT跟Operation
- Operation會被WAIT block住
- WAIT被RECV trigger後，會activate blocked operation
- Operatiun仍未被決定(fixed replication)
Remote Work Request Manipulation (What)
- 根據收到的封包，決定forwarded operation的內容
- 必須修改網卡driver，讓client(or replica)可以修改replica的WQ裡，特定pre-posted work request的內容
  - 因為WQ也是一段memory，故client應該要可以透過RDMA修改其內容
  - 根據收到的pre-calc. metadata來改(包含各replica memory info)
- 修改完後，wait會activate這些WR，並forward出去
- 會占用多餘的WR送metadata跟WAIT，但影響不大
Integration with other RDMA operations to support ACID

Skip