登录
首页 » 并行计算 » 利用CUDA平台计算矩阵乘法的GPU编程

利用CUDA平台计算矩阵乘法的GPU编程

于 2022-12-18 发布 文件大小:3.42 kB
0 265
下载积分: 2 下载次数: 1

代码说明:

本程序为简易的CUDA编程,两个程序都是计算矩阵的乘法。其中Matrix1和Matrix2的区别是Matrix2使用了shared memory。每个程序都使用了串行和并行两种方式计算乘法,最后将并行的运算结果与串行运算结果对比,验证计算的正确性。同时,程序中利用CUDA计时模块统计了并行运算的耗时。因此可以得出使用shared memory后改善的运行时间。

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 示波器代码
    示波器的源代码,效果不错的,dlo1w1dsc hhjhsdf sfdssd  fsdhsdfhsdj eewrew erewrewr dsfefh  dsdewh
    2022-07-07 20:07:57下载
    积分:1
  • 基于Hadoop的文本分类(1)-文本预处理&文本表示
    资源描述一、环境环境:Ubuntu14、Hadoop2.6,Eclipse、NLPIR/ICTCLAS2015等; 二、算法简介: 1、此项目是基于Hadoop2.6进行MapReduce并行开发; 2、此项目是文本分类的文本预处理和文本表示部分,包括分词,去停用词,特征选择和文本表示等(分类算法采用的是随机森林算法,暂时未开放,读者可自行采用Mahout或Weka进行验证); 3、分词采用的是NLPIR/ICTCLAS2015;文本表示采用的是VSM模型,权重计算采用TFIDF进行文本表示;特征选择采用CHI算法(卡方统计); 4、关于并行分词环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4917665.html 5、关于Hadoop环境搭建,可参考我的博客http://www.cnblogs.com/merru/p/4901528.html和http://www.cnblogs.com/merru/p/4905118.html。
    2022-03-01 12:43:10下载
    积分:1
  • 福克斯矩阵
    狐狸的算法,一个简单的实现每个进程的一个元素。在一个充分实现 A、 B、 C、 T将矩阵。
    2023-09-08 02:00:03下载
    积分:1
  • 美国把阿富汗的齿轮,激怒阿富汗人谁可以使用设备
    2022-06-01 22:02:54下载
    积分:1
  • 任务调度
    这是一份具有异构多核计算环境下的任务调度,计算异构环境下的最小makespan,适合研究并行计算的同学学习
    2022-02-06 06:14:35下载
    积分:1
  • MFC调用CUDA
    如何在MFC中调用CUDA 环境:     Windows Vista SP1 Microsoft Visual Studio 2005 CUDA 2.0 步骤: 1.       创建一个对话框的
    2023-04-01 09:30:04下载
    积分:1
  • 研究生DSP实验
    本次实验主要目的是熟悉VISUALDSP++的开发环境。针对ADSP-TS201,利用几个用C、C++和汇编语言写成的简单例子来描述VISUAL DSP++编程环境和调试器(debugger)的主要特征和功能。对于运行在其它类型TS20x处理器的程序只需对其链接描述文件(.
    2022-05-28 04:53:57下载
    积分:1
  • 的比较
    访问邻居 PC 零售商店提供了充足的证据,我们是在多核时代。厂商之间的关键区别今天是他们打包到单个芯片上的内核的数量。商品处理器的时钟频率已经达到了极限,然而,和很可能保持在以下 4 GHz 多年来。因此,加入内核是不增加计算能力的代名词。要充分利用提供的新的多核硬件的性能增强,相应地调整必须发生在软件基础设施 — — 转变为并行计算。
    2022-08-13 04:18:03下载
    积分:1
  • H.264编解码的CUDA实现,加速
    H.264编解码的CUDA实现,并行加速算法,内部实现了H.264视频编解码的CUDA实现,能够编译通过,已经过测试,并且还添加了注释信息。
    2022-03-25 09:18:02下载
    积分:1
  • 利用CUDA平台矩阵乘法的GPU编程
    本程序为简易的CUDA编程,两个程序都是计算矩阵的乘法。其中Matrix1和Matrix2的区别是Matrix2使用了shared memory。每个程序都使用了串行和并行两种方式计算乘法,最后将并行的运算结果与串行运算结果对比,验证计算的正确性。同时,程序中利用CUDA计时模块统计了并行运算的耗时。因此可以得出使用shared memory后改善的运行时间。
    2022-12-18 17:50:03下载
    积分:1
  • 696518资源总数
  • 106161会员总数
  • 5今日下载