多计算单元调度与主机控制模块 (Multi Compute Unit Dispatch and Host Control)

一句话概括

本模块展示了如何将独立的图像处理请求高效地分派到 FPGA 上的多个计算单元 (Compute Units, CUs)，通过 OpenCL 的乱序命令队列 (Out-of-Order Command Queue) 实现任务级并行，从而显著提升硬件利用率与系统吞吐量。

问题空间：为什么需要这个模块？

单 CU 的瓶颈

在 FPGA 加速应用中，一个典型的 2D 图像滤波内核（如 Gaussian Blur）可能只需要几毫秒就能处理一帧图像。但当面对视频流处理或批量图像处理场景时，单一计算单元会变成明显的瓶颈：

串行执行：请求必须排队依次执行，CU 在处理第 N 帧时，第 N+1 帧只能等待
低设备利用率：内存传输与计算无法重叠，DMA 搬运数据时 CU 处于空闲状态
扩展性差：增加更多 CUs 到 FPGA 比特流后，主机端缺乏有效机制来利用这些额外硬件资源

多 CU 的复杂性

简单地将内核复制多份实例化到 FPGA 上并不自动带来线性加速。挑战在于：

任务调度：哪个请求去哪个 CU？如何平衡负载？
依赖管理：数据必须先上传到设备内存，内核才能执行；内核完成后才能回传结果
同步粒度：粗粒度同步（等待所有任务完成）浪费并行机会；细粒度同步增加编程复杂度
资源竞争：多个 CUs 共享 DRAM 带宽，无序的内存访问可能导致性能抖动

解决方案思路：请求分发模式 (Request Dispatch Pattern)

本模块采用请求分发器 (Request Dispatcher) 模式来解决上述问题：

将每个图像处理任务封装为独立的 Request 对象
使用 OpenCL 乱序命令队列 (OOO Queue) 作为底层调度引擎
通过 OpenCL 事件 (Events) 建立任务间的依赖链（Data Upload → Kernel Execution → Data Download）
在主机端提供 sync() 接口，允许调用者按需等待特定请求完成

这种模式的核心洞察是：让 OpenCL 运行时来做任务调度，而不是在主机端手动分配 CUs。当多个独立请求被提交到 OOO 队列，OpenCL 驱动会自动将它们分发到可用的 CUs 上执行，实现负载均衡。

核心抽象：心智模型

理解本模块的关键是掌握三个核心抽象：命令队列即调度器、请求即任务、事件即依赖。

命令队列即调度器 (Command Queue as Scheduler)

想象命令队列是一个智能任务调度器，而不是简单的 FIFO 管道：

In-Order Queue（顺序队列）：像单车道高速公路，车辆必须一辆接一辆通过，即使前方车辆抛锚，后车也只能等待。
Out-of-Order Queue（乱序队列）：像多车道高速公路，有多条并行车道。车辆（任务）可以在不同车道上同时行驶，只要它们之间没有直接的依赖关系（比如 A 车必须在 B 车之前到达某个 checkpoint）。

在本模块中，host-final.cpp 使用 OOO 队列，相当于告诉 OpenCL 运行时："我有多个独立的图像处理任务，你可以自由地在可用的 CUs 上并行调度它们"。

请求即任务 (Request as Task)

将每个图像滤波操作封装为一个 Filter2DRequest，这相当于把一次完整的计算任务打包成一个可追踪的包裹：

输入数据：源图像缓冲区、滤波系数
输出数据：目标图像缓冲区
执行参数：宽度、高度、步长 (stride)
生命周期事件：数据上传完成事件、内核执行完成事件、结果下载完成事件

这种封装让主机代码可以异步地提交多个请求，而不必等待前一个完成。就像在网上购物时，你可以连续下多个订单，而不必等第一个包裹送达后再下第二个。

事件即依赖 (Event as Dependency)

OpenCL 事件 (cl_event) 是构建任务依赖图 (Dependency Graph) 的基本单元。在本模块中，每个请求内部形成一个简单的线性依赖链：

[Upload Data] --(event[0])--> [Run Kernel] --(event[1])--> [Download Data] --(event[2])--> [Complete]

这就像一个串联电路：电流（数据/控制流）必须依次流过每个元件。只有前一个步骤完成（事件触发），下一个步骤才能开始。

关键在于：不同的请求之间没有显式的依赖关系。这意味着三个独立的图像滤波请求可以形成三条并行的流水线：

Request 1: [Upload1] --> [Kernel1] --> [Download1]
Request 2: [Upload2] --> [Kernel2] --> [Download2]  
Request 3: [Upload3] --> [Kernel3] --> [Download3]

当使用 OOO 队列时，OpenCL 运行时可以交错执行这些步骤。例如，在 Kernel1 运行的同时，Upload2 和 Upload3 可以并行进行（受内存带宽限制），从而实现指令级/任务级并行。

模块结构与依赖关系

文件组织

文件	子模块	职责描述
`host.cpp`	multi_cu_dispatch_core_and_optimized_host_flow	基线实现：使用顺序命令队列，适合理解基础概念和单 CU 场景
`host-final.cpp`	multi_cu_dispatch_core_and_optimized_host_flow	优化实现：使用乱序命令队列，充分发挥多 CU 并行能力，推荐用于生产环境
`host_opencv.cpp`	opencv_integrated_dispatch_variant	OpenCV 集成变体：提供图像 I/O 和格式转换功能，支持 BMP/PNG/JPEG 等常见格式
`logger.cpp`	host_timing_and_logging_support	基础设施：提供跨平台日志记录、时间戳和性能分析工具

架构概览

flowchart TB subgraph "Multi-CU Dispatch Module" A[Filter2DDispatcher
Base/OOO Variants] --> B[Filter2DRequest] A --> C[OpenCL Queue] D[Logger & Timing] --> A end subgraph "External Dependencies" E[xclbin_helper] --> A F[cmdlineparser] --> A G[OpenCL Runtime] --> C end subgraph "FPGA Hardware" H[Multiple CUs] --> I[Filter2D Kernel] end C -.-> H

设计决策与权衡

1. 显式事件管理 vs. 高级同步原语

决策：使用原始 cl_event 和显式 clWaitForEvents/clReleaseEvent 调用。

权衡：

优势：跨版本兼容（OpenCL 1.2+），显式控制，调试友好
劣势：代码冗长，学习曲线陡峭，容易出错（内存泄漏、依赖错误）

2. 零拷贝 (Zero-Copy) vs. 显式设备内存分配

决策：使用 CL_MEM_USE_HOST_PTR 结合页对齐的主机内存。

权衡：

优势：低延迟（避免 memcpy），内存效率（无重复拷贝），缓存友好（突发传输）
劣势：对齐约束（4KB），容量限制（页锁定内存），可移植性风险

3. 单队列 vs. 多队列

决策：使用单命令队列配合多个 CUs，而非为每个 CU 创建独立队列。

权衡：

优势：硬件抽象简化，编程模型简单，可移植性好
劣势：调度黑盒化，缺乏队列级隔离，调试复杂性

新贡献者须知：陷阱与最佳实践

1. 内存对齐：看不见的杀手

陷阱：使用标准的 std::vector<uchar> 分配的内存不满足 FPGA DMA 的对齐要求。

最佳实践：

template <typename T>
struct aligned_allocator {
  T* allocate(std::size_t num) {
    void* ptr = nullptr;
    if (posix_memalign(&ptr, 4096, num * sizeof(T))) 
      throw std::bad_alloc();
    return static_cast<T*>(ptr);
  }
  void deallocate(T* p, std::size_t num) { free(p); }
};

std::vector<uchar, aligned_allocator<uchar>> buffer(size);

2. 事件生命周期：泄漏与过早释放

陷阱：忘记调用 clReleaseEvent 会导致句柄泄漏；在操作完成前释放事件会导致崩溃。

最佳实践：使用 RAII 包装器管理事件生命周期，或确保在 sync() 后统一释放。

3. 命令队列类型与性能陷阱

陷阱：混淆 In-Order 和 Out-of-Order 队列的行为，导致性能未达预期。

最佳实践：

始终明确指定队列类型并添加注释
使用 std::chrono 或 OpenCL 事件分析验证并行度
提供回退策略以应对不支持 OOO 的平台

4. 缓冲区生命周期与数据竞争

陷阱：在数据异步传输期间修改或释放主机缓冲区，导致数据竞争。

最佳实践：

将缓冲区所有权视为"已借出"给 FPGA，直到 sync() 返回
使用双缓冲 (Double Buffering) 处理流式数据
在函数文档中明确说明缓冲区的生命周期契约

子模块文档

本模块包含三个详细的子模块文档：

1. 核心调度与优化主机流程

深入解析 Filter2DDispatcher 和 Filter2DRequest 的实现细节，包括：

顺序队列与乱序队列的代码级差异
零拷贝内存管理的实现机制
事件依赖链的精确构建方法
多 CU 并行性能调优技巧

2. OpenCV 集成变体

专注于 host_opencv.cpp，涵盖：

OpenCV 与 OpenCL 内存模型的互操作
IplImage 与原始字节缓冲区的转换
常见图像格式的读写流程
颜色空间转换的注意事项

3. 主机时序与日志支持

详解 logger.cpp 提供的跨平台基础设施：

多级别日志系统的实现
跨平台路径处理
字符串工具函数
条件编译与平台适配