CoreMark

MM32F5270 是灵动近期发布的全新性能型 MCU 产品,采用“星辰”处理器做为主控核心,并在系统架构和外设配置上做了全面的升级。漫谈系列的前几期中依次介绍了 MM32F5270 中的多处创新特色,细心的读者可能对“星辰”处理器的跑分数据还有印象,没错,第一期中笔者曾经提到过“星辰”处理器达到了 4.02 CoreMark/MHz,相较于 Cortex-M3 和 Cortex-M4 有约 17~20% 的提升。本期,笔者就来说说 CoreMark 跑分,以及如果利用 MindSDK 轻松将 CoreMark 程序移植到 PLUS-F5270 开发板上,并将跑分结果和友商的高性能产品做一个对比。

1、CoreMark 测试

CoreMark 是评测 MCU 性能的最常用测试程序之一,经常能看到很多国际大厂将 CoreMark 分数标注在产品手册上,足以体现 CoreMark 测试的权威性。

CoreMark 是由 EEMBC 提出的基准测试程序,可通过 EEMBC 官网(www.eembc.org)下载 。根据 EEMBC 的介绍,CoreMark 是为了测试处理器功能而特制的基准测试程序,其通过产生单一数字的跑分结果,来帮助用户快速的对不同的处理器做出比较。

接下来,笔者通过 EEMBC 网站下载了最新版的 CoreMark 测试程序,最新的程序需要通过 github 获取(github.com/eembc/coremark),这里的具体操作就不介绍了,我们直接来看下载下来的 CoreMark 程序包。

下载后的程序包结构如下图所示,其中,coremark-main 文件夹下的 .c 和 .h 是 CoreMark 测试的核心程序,和程序运行的平台没有关系,所以理论上,coremark-main 下的文件是不需要修改的。同时看到 coremark-main 文件夹下有很多子文件夹,这些文件夹是移植到不同操作系统上所需要修改的文件,即 core_portme.*。这里,考虑到我们仅运行 CoreMark 程序,不需要跑操作系统,因此,选择其中的 barebones 文件夹,打开后看到里面包含了 core_portme.c,core_portme.h 以及其它一些程序和 Makefile。后期的移植就是通过修改这些 portme 文件实现。

“MM32F5

到这里,我们运行 CoreMark 所需的所有文件已经就位。简单看下 CoreMark 中到底测试了哪些内容。CoreMark 的核心程序有 3 个,分别是 core_list_join.c,core_matrix.c,core_state.c。其中,core_list_join 用于列表运算测试,主要包括列表插入、删除、反转等操作;core_matrix 用于矩阵运算测试,主要包括矩阵的乘法、加法等;core_state 用于状态机运算测试,主要运行状态的转换。

CoreMark 结果通过完成指定运算量所需要的时间来表征,即 CoreMark = Data size/时间。这个结果用于评定 MCU 的性能,而非 CPU 性能。CoreMark 分数和 CPU 的主频有关,如果仅评估 CPU 的性能,则通过 CoreMark 分数和主频的比值来表示,即 CoreMark/MHz。“星辰”处理器 4.02 CoreMark/MHz 就是这么来的。

2、借助 MindSDK 移植 CoreMark

接下来就是 CoreMark 的移植。前面提到 CoreMark 的核心程序是和平台无关的,那我们需要移植哪些内容呢?很简单,仅需要处理好以下几点:

1)提供时间基准 – CoreMark 测试需要知晓运算所花费的时间,因此需要定义一些 API 来告诉 CoreMark 当前时间是多少,而最终 CoreMark 测试关心的是测试开始到测试结束的时间差。

2)系统初始化 – 包括Cache 配置、电源配置、时钟配置等。

3)提供串口打印 – CoreMark 的结果需要打印出来,一般通过串口打印的方式接收 CoreMark 的结果。

4)最后,还要将 CoreMark 程序放入 IDE 中,并下载到开发板上运行。这里采用 IAR 开发,在 PLUS-F5270 开发板上运行。

这里选择基于 MindSDK 进行移植。MindSDK(mm32-mcu-sdk)是由灵动官方的软件团队开发和维护的基于灵动微控制器的软件开发平台。其包含了驱动程序、功能组件、样例工程及演示工程。用户可以访问灵动官网,到产品-> MM32F5270 -> 工具和软件下找到 MindSDK 的入口,也可以直接访问 mindsdk.mindmotion.com.cn 登录并获取。

MindSDK 中包含了这里所需的所有驱动程序,基于 MindSDK 可以实现快速 CoreMark 移植。

“MM32F5

这里,我们登录到 MindSDK 网站,选择 Toolchain 为 IAR,选择开发板为 PLUS-F5270,点击 BUILD PROJECT,即可生成 PLUS-F5270 配套 SDK 包。

“MM32F5

下载下来的 plus-f5270_iar SDK 包的内部结构如下图所示:

“MM32F5

这里,考虑到移植需要用到串口打印,因此笔者选择了基于 demo_apps -> basic 中的 hello_world 工程进行移植,这里,需要以下几个步骤:

1)将 hello world 工程拷贝一份,重命名为 Coremark_test。

2)新建一个 Coremark 文件夹,将 Coremark 程序拷贝进去。

3)打开 IAR 工程,添加 Coremark 程序,并删除原有的 main.c。

4)在 portme.c 的 portable_init 函数中做系统初始化配置。

这里的配置包含以下几步:

第一步是打开指令和数据缓存,MM32F5270 所配置的缓存是“星辰”处理器自带的 L1 缓存,指令和数据各 4KB,其调用的 API (SCB_ 开头)都已经在头文件 core_star.h 中定义好,该头文件位于 MindSDK 的 device/CMSIS/Include 路径下。

“MM32F5

第二步是板子初始化,这里直接拷贝 hello world main.c 中的BOARD_Init() 函数。其中包含了时钟的初始化、IO 引脚的初始化和串口的初始化(用于串口打印)。这里 CPU 配置为 120MHz。

“MM32F5

第三步是定时器的初始化,这里直接将 driver_examples -> tim -> tim_basic 中的 app_tim_init() 函数拷贝到 core_portme.c 来修改。这里采用 32 位定时器 TIM2 做为系统时间基准,配置 TIM2 运行在 120MHz,分频系数为 100,计数周期为 1000 秒。

“MM32F5

以上配置完毕后,CoreMark 的移植工作就完成了。可以看出,基于 MindSDK 移植 CoreMark 程序是非常简单的。此时打开编译配置可以看到,该工程选择了 Mind Motion MM32F5277E9P 做为 Device,Core 识别为 STAR。

“MM32F5

3、基于 PLUS-F5270 运行 CoreMark

接下来,需要将程序下载到 PLUS-F5270 开发板中运行。这里,PLUS-F5270 开发板是灵动联合逐飞科技打造的 MM32F5270 系列全功能评估板,目前已经可以通过逐飞科技官方淘宝账户购买。

“MM32F5

PLUS-F5270 开发板没有板载调试器,用户需要通过外部调试器连接。目前,J-LINK V9 或以上版本已经支持 STAR 处理器,用户也可以通过 DAP-LINK 来进行调试和烧写。其硬件连接如下图所示。

“MM32F5

4、CoreMark 结果对比

这里对 MM32F5270 进行了多种配置下的 CoreMark 测试,包括不同的编译器优化条件、不同的 CoreMark size。这里,程序运行在内置 Flash 中(0x08000000),中间数据存放在 System RAM (0x30000000)中。

测试结果如下图所示,可以看到,MM32F5270 在优化开到最大的条件下,达到了 3.93 CoreMark/MHz,这个数值已经非常接近理论极限值 4.02 CoreMark/MHz,可以看出MM32F5270 的运行效率还是很高的。

“MM32F5

其中,优化开到最大时的串口打印结果如下图所示,可以看到,MM32F5270 在 21.2 秒内完成了 10000 次迭代,因此跑分结果为 1000/21.2 = 471.4 CoreMark,单位主频的分数为 471.4 CoreMark/120MHz ≈ 3.93 CoreMark/MHz。

“MM32F5

将这个数据和友商的 Cortex-M4 处理器进行了对比,这里选择的 Cortex-M4 处理器运行在 180MHz,配置 1KB L2 指令缓存和 128B L2 数据缓存,测试时打开 I/D Cache,并使能 Flash prefetch,得到其运行结果是 3.34 CoreMark/MHz。实测结果显示, MM32F5270 的 CoreMark 结果比友商 Cortex-M4 产品快了约 18%。在不同的编译优化程度下也有 14% ~ 19% 的提升。

“MM32F5

这个结果是否和 CoreMark size 有关呢?为此,对不同 CoreMark size 下的结果进行了对比,可以看出,当 CoreMark size 增加时,“星辰”处理器相对于 Cortex-M4 有 19% ~ 23% 的提升,并且 Data size 越大,CoreMark提升就越多。

“MM32F5

5、小结 & Next

本文介绍了如何利用 MindSDK 轻松将 CoreMark 移植到 PLUS-F5270 开发板上,并将实测结果和 Cortex-M4 进行了对比。测试结果显示 “星辰”处理器相较于 Cortex-M4 有约 14% ~ 23% 的性能提升。

CoreMark 测试仅仅是常用的基准测试之一,感兴趣的读者也可以基于 MindSDK 和 PLUS-F5270 开发板移植 Dhrystone 等其它测试程序。

未完待续!本文是 MM32F5 漫谈系列的第五篇,后续将为大家持续更新,旨在分享 MM32F5 系列中所包含的那些有趣的技术,敬请期待!

往期回顾

MM32F5 系列漫谈 1:“星辰” 处理器?!
MM32F5 系列漫谈 2:吞吐率最大化的总线设计
MM32F5 系列漫谈 3:MindSwitch 实现高效互联
MM32F5 系列漫谈 4:高性能模拟和 3 合 1 控制

来源:灵动MM32MCU
免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 274

什么是CoreMark


图1 CoreMark标志

CoreMark是处理器的性能基准测试,由嵌入式微处理器基准测试联盟(EEMBC)在2009年开发,为了取代过时的Dhrystone标准,ARM建议使用CoreMark而不是Dhrystone来进行基准测试。软件使用C语言编写,是一个免费使用,易于移植的基准测试程序。目前CoreMark已经成为测量与比较各类处理器性能的业界标准基准测试。CoreMark得分越高,意味着性能更高。

CoreMark的模拟工作负载主要包含几种常用的算法:

  • 矩阵操作,模拟常用的运算;

  • 链表操作,模拟指针的各种用法;

  • 状态机操作,模拟程序分支运行操作;

  • 循环冗余校验(CRC),嵌入式系统常见的功能。

CoreMark与Dhrystone对比

虽然Dhrystone的测试可以作为参考,但更容易受到其他因素的影响,CoreMark能接近实际地反应出工作能力。

进入性能测试的世界


图2 Cortex-M系列微控制器

我们在选择一款MCU时,一般会综合考虑各方面的指标,如功耗、外设丰富程度、计算性能等等。其中在我们谈论计算性能时,一般只是简单地对比一下内核主频,但这并不能直观对比出一款MCU的实际性能。相同主频的MCU,有可能性能差异要比你想象的大。而基准测试则可以很直观地对比出一款处理器的性能,不用在考虑性能时犹豫了,也可以让您发现您产品的瓶颈,优化产品的性能。在这里,我们将教您自己去移植CoreMark测试一款MCU的CoreMark性能。

CoreMark移植到一款MCU上有几步

  • 获取CoreMark源码

  • 实现平台打印输出函数

  • 修改平台相关宏定义

  • 实现计时相关函数

  • 编译与运行CoreMark

我们将使用NXP的LPC54018平台作为我们的移植案例。测试的主角LPC54018为Cortex-M4内核,180MHz工作频率,软件平台为keil。评估板使用ZLG的EasyARM-LPC54018,板载SDRAM、SPI-Flash、以太网、USB等外设。


图3 ZLG的EasyARM-LPC54018评估板

1、获取CoreMark源码

CoreMark的源码可以在CoreMark的官网或者官方GitHub代码仓库获取。

CoreMark官网:https://www.eembc.org/coremark/

代码仓库:github.com/eembc/coremark


图4 EEMBC官网

源码主目录下需要添加到工程的文件:

除了以上的文件,barebones文件夹下为裸机移植需要的文件:

其中core_portme两个文件为移植必须修改的文件,ee_printf.c与cvt.c是为了在裸机平台实现printf打印输出。

2、实现平台打印输出函数

在CoreMark中,最终的结果需要使用printf格式化输出函数打印出来,如果你的MCU软件平台不能使printf函数,则需要ee_printf.c与cvt.c文件,其中只需要实现一个输出单个字符的函数。当然,如果你的平台提供有printf格式化输出函数,则可以将core_portme.h中的HAS_PRINTF宏修改为1,删除ee_printf.c与cvt.c文件即可。

LPC54018的库函数中已经实现了printf输出函数,所以我们就不需要ee_printf.c与cvt.c文件了,修改宏即可。

3、修改平台相关宏定义

CoreMark是支持跨平台的基准测试程序,从Windows、Linux到单片机,当然需要一些平台相关的基础定义,这里需要根据平台灵活配置。

在core_portme.h添加 #include "board.h"添加了对size_t等类型描述符的支持,"board.h"是NXP的SDK库函数中板级引用头文件,还包含了处理器相关的内容,比如后面会用到的SysTick定时器。

在core_portme.h文件中修改编译器版本、编译选项、储存位置的宏,这个仅作为输出结果,不影响实际测试性能。

core_portme.h中修改关于main函数的定义,针对裸机main函数无参数,修改宏:

此时在你原来的工程中已经有一个main函数了,将core_main.c中的main函数名改为core_main,添加到你自己的主函数main中调用。

4、实现计时相关函数

作为一个基准测试,当然需要知道自己执行了多少时间,我们需要实现CoreMark的定时相关接口,我们选择ARM平台通用的SysTick定时器来计时。这段代码需要修改SystemCoreClock为你自己平台的MCU主频即可,SystemCoreClock是NXP的SDK中提供的获取系统时钟频率的方法,不同平台会有不同。我们在这里实现的就是配置SysTick定时器以1000Hz的频率运行,也就是1ms产生一次中断,systick_count变量每1ms加1,以供后面获取时间的函数调用。


在core_port.c中portable_init函数中添加SysTick_Init()。portable_init的本意是去初始化与你平台相关的内容,我们在这里初始化SysTick定时器。删除这里“#error…”中的内容,这只是一个移植的提示。

补充barebones_clock()时间函数的内容,并删除这里“#error…”中的内容,这里只需要返回我们的全局计数值即可,例如:

定义CLOCKS_PER_SEC,CoreMark会使用这个参数将获取的计数值转化为秒数。定义为我们定时器的计数频率:

最后一步,添加迭代次数也就是算法运行次数的宏ITERATIONS,CoreMark会使用这个宏来执行计算次数,次数越多越准确,但同时需要的时间也更久。CoreMark如果执行10秒以下则认为结果无效,可以先设为1000,后面根据运行时间灵活调整,保证运行时间大于10秒即可。可以添加到Keil的C/C++选项卡的Define中或者在core_port.c中定义。

5、编译与运行CoreMark

为了测试数据的准确,将编译优化等级调整为-O3,对运行时间进行优化,配置为release版本。我们先使用在内部RAM中运行的方式先进行测试。编译,进入Debug,运行,等待少许时间。

运行后查看串口输出的结果,如果提示运行时间少于10秒则增大ITERATIONS的值,这次测试的LPC54018调整为5000后运行时间大于10秒,查看输出结果。


图5 测试输出结果

最后的结果就是“CoreMark 1.0 : 499.300979 / GCC4.2.1 Compatible Clang 9.0.0  -O3 / STACK”,其中“GCC4.2.1 Compatible Clang 9.0.0”是Keil的编译器的宏自动生成的结果,忽略即可。

499.300979就是我们测试得到的结果了,意思就是每秒运行了多少次CoreMark的基准测试程序。


图6 ARM官方数据

不同储存介质运行速度的对比

由于我们这次测试的LPC54018JET180没有片内Flash,我们选择三种储存介质来进行速度的对比,分别是片外SPI-Flash、片外SDRAM、片内SRAM。片外SPI-Flash的型号为IS25LP064,片外SDRAM为IS42S16160J。


图7 不同储存介质运行速度对比

注:本次测试具有局限性,结果仅供参考。实际使用中由于指令缓存等的存在,速度差异不会这么明显。

可以对比出,内部SRAM运行相较于其他运行方式对速度的提升很明显,但限于内部SRAM的大小,我们一般只能将部分对速度敏感的程序放在SRAM中运行,具体方法可以查看Keil分散加载文件的使用。

编译器优化等级对比

Keil的C/C++编译器的优化等级一般有四种-O0、-O1、-O2、-O3,其中-O0几乎不优化,-O3优化到最佳的性能,-O2为默认的优化等级,平衡性能和代码占用空间。我们测试几种优化等级对代码运行效率的影响。


图8 Keil的编译器优化对比

结语

了解了CoreMark基准测试的世界后,在纠结MCU的性能时,不如跑个分试试。CoreMark可以帮助我们了解自己产品的实际性能,找到系统的瓶颈,改善我们的产品。

来源: ZLG立功科技

围观 4440
订阅 RSS - CoreMark