为您揭晓多核并行计算是什么

架构技术交流

2010-06-10

关注关注

由处理器技术的发展而催生的多核技术带动了软件编程的变革.

以前只有在超级计算机中才能体验的并行计算目前被普及到了台式机中.

在多核技术没有产生之前,台式机中有一种多CPU的架构:对称式多处理器,在一块主板上放置多块CPU的技术,但是这种主板架构当时来讲也非常昂贵,winNT支持这种技术,一般在服务器上才被应用.

多核CPU的产生,开启了并行计算的美好篇章,普通开发者/用户都可以廉价的得到它(xp支持这种多核CPU,win98则不支持).

多核CPU架构与多CPU架构并无太大区别,只是将芯片封装的更紧密,成本更低而已.

在最新的Intel i7系列处理器上同时支持多核与超线程,这意味着处理器将扩充一倍的内核数量,如4核心CPU,将被操作系统识别为8核心.

例如在一个主板上有4个CPU插槽,每个槽插一个4核的CPU,并且每一核都具有超线程,那么将会有32个线程共同执行代码(32位windows支持CPU数量的极限),这太帅了,不是吗?

概念

Concurrent(并发)与Parallel(并行)

并发是用来描述并行执行的方式(看上去一起发生的事件,例如目前操作系统的多任务调度程序,看上去桌面上有许多程序在同时运行.),并发是形容词.

并行是指通过并发将一个操作分解成一组粒度更细的工作单元,并且这些工作单元可以在不同的处理器内核上运行.并行是动词,指必须有两个以上的事件发生.

工作单元,以粒度可分为最小到单一CPU指令,大到函数或系统任务.

并行有数据并行性与任务并行性

数据并行性指对许多数据执行相同的并行操作,比如对一组数的每个数进行加法操作.

任务并行性指对相同的一组数据执行不同的并行操作,比如一个执行加法操作,而另一个执行乘法操作.

优秀的多核微处理器:

AMD Multicore Opteron

Intel Core2 Duo

并行编程的麻烦:内存一致模型简称内存模型

缓存一致性(cache coherency) 将缓存与主内存数据进行同步

内存一致性模型(memory consistency model)

CPU可以对内存的读取或写入操作重新排序(乱序执行Out of Order),而导致内存一致性的产生.就是指CPU中实际内存访问操作与程序代码中内存访问操作的不一致性程度.

CPU的硬件架构决定了内存模型的强度,强度越高写代码就会更容易.

x86/64架构的CPU有较强的内存一致性模型,而安腾系列处理器Itanium(IA-64)是较弱的模型.它为了提高性能(不必根踪缓存行的状态)不会主动刷新缓存,而是提供指令操作缓存刷新到主内存.

还有一些软件实现的内存模型,比如java虚拟机和.NET CLR,它们都是比较强的内存模型,而且不考虑具体的硬件实现.

解决办法:内存栅栏(memory fence)

内存栅栏可以阻止目标架构对指令进行重排.利用语言平台的特性或原子方法可以实现内存栅栏,比如.net中的Interlocked类方法,c++中的volatile变量.

附录一些并行库:

Single Unix Specification的POSIX线程库.

Intel的TBB线程库.

Standard Template Adaptive Parallel Library,STAPL:标准模板适配并行库.

最后并行编程库必须得到操作系统的支持,如果系统没有相应功能api,上面那些并行库也就一无是处了.

并行计算多核cpu 架构

架构技术交流

0 关注 1 粉丝 0 动态

关注关注

云计算

Saas：软件即服务：通过互联网提供按需软件付费应用程序，云计算提供商托管和管理软件应用程序，并允许其用户连接到应用程序并通过全球互联网访问应用程序 ?

Zjzk 2020-08-02

MacBook显卡不跑AI模型太浪费：这个深度学习工具支持所有品牌GPU

往东还是往西 2020-02-24

Python基于pyCUDA实现GPU加速并行计算功能入门教程

Nvidia的CUDA 架构为我们提供了一种便捷的方式来直接操纵GPU 并进行编程，但是基于 C语言的CUDA实现较为复杂，开发周期较长。作为第四种CUDA支持语言，相信python一定会在高性能计算上有杰出的贡献–pyCUDA。希望本文所述对大家Pyt

JamesRayMurphy 2019-12-30

浅谈 OpenGL 中相关阻塞问题

　　　　CUDA并行计算中需要使用Pass1渲染生成的两张纹理，然而我在GPU端使用CUDA计算时发现纹理为空，但是如果将两张纹理的数据传回CPU端，打印出来是有值的，且是正确的值。如果在CUDA并行计算之前先将纹理数据传回CPU，这时发现CUDA并行计算

夕加加 2020-01-06

数据倾斜的原因和解决方案

MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义：。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。3）MapReduce是一个并行程序设计模型与方法。它借助于函

nimeijian 2019-12-07

GPU与CPU比较,GPU为什么更适合深度学习?

CPU是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强，计算能力则位于其次。而GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工。GPU只是显卡上的一个核心元件，又不能单独工作，它还需要缓存来辅助工作。独立显卡是直接焊死了GPU在显

qijiqiguai 2019-08-21

两款高性能并行计算引擎Storm和Spark比较（转）

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。这和Hadoopmap/reduce非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法性能更高。

小琳子 2014-11-20

使用并行计算大幅提升递归算法效率

http://3503265.blog.51cto.com/all/3493265

gotea 2013-05-05

云计算，分布式计算，网格计算，并行计算

现在把早上看到的云计算和分布式计算，网格计算，并行计算的概念对比分析一下。其实是要了解云计算，但是这几个名字叫得容易把问题搞混。并行计算或称平行计算是相对于串行计算来说的；所谓并行计算可分为时间上的并行和空间上的并行。从程序和算法设计人员的角度来看，并行

fuel 2013-03-19

【转载】Why MapReduce?

现在MapReduce/Hadoop以及相关的数据处理技术非常热，因此我想在这里将MapReduce的优势汇总一下，将MapReduce与传统基于HPC集群的并行计算模型做一个简要比较，也算是对前一阵子所学的MapReduce知识做一个总结和梳理。随着互联

云端轻躺 2013-01-03

8，云计算深入理解

用户终端的功能可以大大简化，诸多复杂的计算与处理过。程都将转移到终端背后的“云”上去完成。用户所需的应用程序。在本地，而是保存在互联网上的数据中心里。提供云计算服务的。因此，云计算中的。10个以上独立机房，全网处理能力超过200Gbps。世纪互联在云计算方

IT互联网技术学习 2012-11-29

云计算与集群、虚拟机

一个用户在云计算平台上的环境是虚拟机，任何操作都不会影响其他用户的环境。用户在集群上的环境是集群操作系统，所有的用户共享唯一的环境，更改操作相互影响。成熟而常见的OS，保证了软件的兼容性和易用性。从而，不必为应用专门开发云计算平台的专用应用程序，直接使用现

苏州胜网 2010-06-29

Chapter 1 基于CUDA的异构并行计算

Ⅰ. 并行计算1.1 什么是并行计算？即一个大的计算问题被划分为很多可以同时解决的小问题。一个程序应该包含两个基本的组成部分：指令和数据。当一个指令处理上一个指令产生的数据时，就有了数据相关性（依赖性）的概念。数据相关性是限制并行性的主要因素。块划分

JAVA飘香 2019-06-30

复杂 SQL 查询跑不动？DRDS 只读实例来解决！

背景在实际业务生产环境中，业务应用系统在使用 OLTP 数据库将数据进行存储后，均会存在如后台运营类系统进行统计报表分析等场景的复杂 SQL 查询诉求。千万级数据下的分布式多表Join、聚合、排序、子查询操作秒级返回结果,可极大的提升响应速度。自身利用同一

Depth 2019-06-28

java发展方向和Google架构分析

大表分成许多小块，然后由许多服务器计算，分类，整合，再统计。它分为三维，Rows,Cols,和TimeStamps(时间)；移动设备的瓶颈是：用户体验！为什么最重要的图片没有传上来？

云服务器探讨 2011-10-09

Hadoop学习笔记一

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档，里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的，同时又参考了网上的很多文章，对学习Hadoop中遇到的问题进行了归纳总结。

yhblog 2011-07-29

Hadoop介绍

Hadoop主要分为两个大版本，1.0和2.0. HBase中的数据经常就存储在一张表中，所以在查询时无需跨表，查询速度快数据维护：关系数据在进行数据更新操作时，实际上旧的值会被新的值覆盖掉。而HBase中的所有值都会被存储，只有超过了设定的超时时间后，旧

whulovely 2019-06-27

Hadoop

Hadoop学习笔记一简要介绍这里先大致介绍一下Hadoop.本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档，里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的，同时又

gaoyubotaili 2010-06-05

Schedulerx2.0分布式计算原理&最佳实践

Processor：业务逻辑框架，不同的processor表示不同的任务类型。以MapTaskMaster为例，大概的原理如下图所示：

ahaoGG 2019-05-31

深度学习中，CPU、GPU、NPU、FPGA如何发挥优势

随着AI的广泛应用，深度学习已成为当前AI研究和运用的主流方式。面对海量数据的并行运算，AI对于算力的要求不断提升，对硬件的运算速度及功耗提出了更高的要求。目前，除通用CPU外，作为硬件加速的GPU、NPU、FPGA等一些芯片处理器在深度学习的不同应用中发

flyfish 2019-05-10

安科网

为您揭晓多核并行计算是什么

架构技术交流

架构技术交流

相关推荐

云计算

MacBook显卡不跑AI模型太浪费：这个深度学习工具支持所有品牌GPU

Python基于pyCUDA实现GPU加速并行计算功能入门教程

浅谈 OpenGL 中相关阻塞问题

数据倾斜的原因和解决方案

GPU与CPU比较,GPU为什么更适合深度学习?

两款高性能并行计算引擎Storm和Spark比较（转）

使用并行计算大幅提升递归算法效率

云计算，分布式计算，网格计算，并行计算

【转载】Why MapReduce?

8，云计算深入理解

云计算与集群、虚拟机

Chapter 1 基于CUDA的异构并行计算

复杂 SQL 查询跑不动？DRDS 只读实例来解决！

java发展方向和Google架构分析

Hadoop学习笔记一

Hadoop介绍

Hadoop

Schedulerx2.0分布式计算原理&最佳实践

深度学习中，CPU、GPU、NPU、FPGA如何发挥优势

架构技术交流