本文以JAVA线程为例介绍并行处理。所讨论的许多挑战也适用于其他编程语言,如C++或C#。
一目了然
并行编程技术是有效利用多核系统(多核处理器、图形卡或HPC集群)所必需的。
内存模型的知识对于开发并行应用程序至关重要。
不同步的并行内存访问可能导致错误的结果和程序中止。
线程是应用程序(进程)中的顺序执行字符串。应用程序可以由多个并行运行的线程组成。应用程序中的线程共享启动它们的进程的内存(共享内存)。
为了创建线程,Java和许多其他语言一样,提供了thread类。如果开发人员想要创建自己的线程,他们会创建一个从线程派生的类,该类重写run方法。它包含线程在运行时要执行的程序代码。启动线程时,首先创建类的实例,然后调用Start方法。或者,也可以通过实现Runnable接口来创建线程。因此,类不必从线程派生,这为更复杂的程序结构提供了优势,因为Java不支持多重继承。
避免数据泄露
如果开发人员反复运行程序,程序偶尔会中止。触发是所谓的数据竞赛,即多个线程访问同一数据(在本例中为sum变量)并尝试更改数据的星座。sum变量被实现为64位数据类型(double)。Java的内存模型将64位数据类型实现为非原子的,也就是说,不是线程安全的,因为值的写入操作分两步进行,每32位的一半写入一个步骤。这可能会导致一个线程读取64位值的状态,其中前32位值已经被另一个线程更改,但后半部分尚未更改(另请参见Java语言规范[1])。这可以通过将变量标记为易失性来解决。对于标记为volatile(例如double和long)的64位变量,Java运行时环境确保写入始终是线程安全的,并且其他线程只能看到完全写入的值(在两个32位半部分上)。
但是,程式的结果会在每次执行程式后显示不同的结果。但未列出1亿的正确结果。原因是求和的计算:这是一种所谓的种族条件,也就是说,结果取决于线程执行的时间顺序。总和计算由三个部分组成:读取旧总和,将总和与数组中的相应值相加,然后保存新总和。在多个线程上执行这些操作的时间顺序是随机的,不是确定性的。
关键部分同步
为了解决求和计算中的种族条件问题,Java提供了将方法标记为已同步的方法。这可确保每次只能由一个线程运行它们。所有其他线程都必须等待某个执行者再次退出该方法。
如果程序再次运行,则会返回可重复的正确结果。但是,两个线程的运行时间大约为5000 ms,此示例说明了同步会对性能造成很大的影响,因为计算总和时所需的逻辑会变得复杂得多。调用同步方法会在对象上设置锁,或者在退出该方法时重置锁。如果方法已经锁定,则调用线程将被阻塞。因此,除了实际的总和计算之外,本示例还调用此同步机制1亿次。
在这些条件下,并行计算运行
多核心系统(多核心处理器、显示卡或高效能运算(HPC)群集)需要平行程式设计技术。这可以显着提高性能并缩短复杂应用程序的运行时间。该Java线程示例说明了并行应用程序开发的基本挑战,并可应用于其他语言,如C++和C#以及图形卡并行处理等技术。基本设置始终相同:
该问题必须很好地并行,并且具有最小的顺序(非并行)部分。适用于数值模拟方法、神经网络训练以及矩阵、张量和向量计算等数学方法。
要开发并行应用程序,了解存储模型至关重要,例如数据类型的原子性或可见性(变量在多个线程中的变化是可见的)。
不同步、并行的内存访问可能导致错误的结果和程序中断。但任何形式的同步(原子变量,∞成本高昂,降低了并行计算的效率。此外,对程序代码的生成情况的了解要差得多。
应尽量减少共享可变数据。最佳选择是每个线程单独访问内存,或对多个线程的数据进行只读访问。