NVIDIA CUDA on ARM Platform Summer Camp Note 4

1.Jetson NANO存储单元调用
- (1)统一内存
- (2)Jetson NANO存储特点
2.流与CUDA库
- (1)CUDA流
- (2)CUDA加速工具库

Notes for CUDA on ARM Platform Summer Camp Day4.由于只记录了一些我认为比较重要的东西，笔记内容可能并非非常完整，完整内容可以直接参考课程视频，点击查看百度云，密码2qom。但我尽量保证了笔记内容的逻辑性和整体性，方便其他人阅读。

1.Jetson NANO存储单元调用

(1)统一内存

统一内存是指可以从任何处理器(CPU或GPU)访问的单个内存地址空间，通过cudaMallocManaged()调用，可以理解为是把内存和显存整合到了一起(并非是物理层面的统一)。当然，这并非是真的不会进行数据传输，而是不需要进行显式的传输(手动申请)，由系统会自动完成。除非是像Tegra平台一样，内存和显存共享同一个物理存储，这样才是真正不需要传输，这点需要注意一下。具体从代码层面，有两种实现方法：统一内存的优点如下：一个统一内存的案例如下。

(2)Jetson NANO存储特点

前面在介绍统一内存的时候可以看到，它其实是不适合于Tegra这种嵌入式处理器的。但对于Tegra这种嵌入式处理器也有其独特之处。对于常规GPU和CPU而言，其数据传输通过PCIe进行，这也是制约性能的因素之一。而在Tegra上，显存内存合二为一，都在SoC里，避免了这种传输，在一定程度上提升了性能。换句话说，对于Tegra这种嵌入式平台而言，其本身就可以做到GPU、CPU可以访问同一个内存地址。所以就没有必要再支持统一内存了，也是Jetson平台的重要特色。而将来，如果GPU和CPU都可以像Tegra一样共享存储单元，那么就非常方便了。

2.流与CUDA库

(1)CUDA流

流表示GPU的操作队列。一个流的不同操作有着严格的顺序，不同流之间是没有任何限制的。多个流可以同时启动多个内核，形成网格(Grid)级别的并行。CUDA中单流可以分为两大类：默认流和非默认流。如果我们什么都不做，其实系统就已经为我们创建了一个默认流(空流,NULL Stream)。我们一般可以使用这个流来创建和调度其它的流，而不是把它和其它流放在一起运行。另外需要说明的是，对于Jetson平台而言，目前是不支持多流的，只支持默认流。流的相关API如下。这里可以看到，流同样是在尖括号里设置的，也就是尖括号里的第四个参数。利用流来加速程序的示意图如上图所示。简单来说就是尽可能减少等待时间，对大型数据进行拆分。让GPU数据传输的同时进行计算，让GPU尽可能busy起来。对于一般的程序，都是先将数据拷贝到Device，然后执行核函数，最后再将数据拷贝到Host。但如果数据量非常大，那么这里显然就有一个问题。在数据拷贝到时候，我们什么都做不了，只能等待。这显然是不够合理的。所以我们可以将一个大的数据拆分成多个小块。每一个小块拷贝好以后，就执行核函数。而在执行当前核函数的同时，再将下一小块的数据拷贝进来执行，以此类推。这样就可以尽可能减少了等待时间。这里其实涉及到不同的调度方式：深度优先和宽度优先。所谓深度优先是指，尽可能保证同一个流中单所有操作都执行完了(如果将多个流并排画在一起，就是某一个流快执行完了，其它流还没动。这样看起来执行的很深，所以叫深度优先)才会去执行下一个流的操作。那么其实可以发现，这就是串行执行。而宽度优先是指尽可能同时执行多个相同的操作。如果也将多个流画在一起，就是每个流都执行了步骤1之后，才会一起再执行步骤2。这样看起来执行的很宽，但是不深，所以叫宽度优先。另外，在使用多流时需要注意同步的问题。上面说了不同流之间是异步的，不会存在谁等谁的情况。所以对于一个多流的程序，需要进行流的同步。不然可能还有某一小块没执行完就返回结果了，需要注意一下。