历史上的今天

今天是:2024年09月22日(星期日)

正在发生

2020年09月22日 | arm构架分析

发布者:老卫 来源: elecfans关键字:arm  构架分析  体系结构 手机看文章 扫描二维码
随时随地手机看文章

  一、 引 言

  随着近两年各种智能手机、平板电脑、车载电子等各种消 费品的蓬勃发展,ARM体系结构的处理器,作为这些消费品的处理核心,也得到了长足的进步,甚至击败了Intel,在移动嵌入式领域独占鳌头。本文将首先介绍ARM体系结构的发展历程,然后将着重梳理其最先进的Cortex系列处理器的体系结构,以及这些结构对于各种软件平台如JAVA、.NET的支持等。

Cortex-M 系列处理器主要是针对微控制器领域开发的,在该领域中,既需进行快速且具有高确定性的中断管理,又需将门数和可能功耗控制在最低;而Cortex-R 系列处理器的开发则面向深层嵌入式实时应用,对低功耗、良好的中断行为、卓越性能以及与现有平台的高兼容性这些需求进行了平衡考虑。

  二、 ARM体系结构的历史即其新进展

  2.1 ARM体系结构市场前景

  来自英国的ARM(Acorn RISC Machine)公司虽然以ARM处理器著称,但是它独特的商业模式却决定了ARM公司本身并不生产处理器,这点与从研发到生产到出货垂直整合的Intel公司有很大不同,ARM公司采取的是授权与提成的商业模式(Intellectual Property Core 简写IP-Core):公司自己研发处理器体系架构,然后将这套架构的知识产权有偿授权给处理器制造厂商如高通、三星等半导体厂商,这些厂商造出的每一块使用ARM体系结构的芯片只需向ARM公司交付低廉的提成即可。由于这种创新的商业模式和低廉的成本,加上ARM体系的低功耗特点,让ARM体系在对价格敏感和续航能力敏感的32位嵌入式电子消费品市场如虎添翼,基本占据了32位嵌入式消费平100%的市场份额。发展到如今,ARM芯片甚至在对运算速度要求更高的的上网本、平板电脑也大有跟Intel的ATOM处理器一较高低的实力。近来红得发紫的苹果iPad就是采用的ARM深度定制的一款处理器架构,其它还有很多运行着Android系统的平板产品、智能手机产品等也都采用ARM体系结构的处理核心。由此可见ARM体系结构在移动电子消费品市场无与伦比的优势。


  2.2 ARM体系发展历史

  1985——诞生了第一颗ARM芯片,ARM1 Sample版。

  1986——ARM2,具有32位数据总线,26位地址总线,16个32位寄存器的处理器实现产能量产。

  20世纪80年代晚期——苹果电脑开始与Acorn合作开发新版的ARM核心。

  1991——与苹果的合作造就了ARM6,并进入了苹果的Apple Newton PDA和Acorn Risc-PC成为了它们的处理器。在该年正式成立了ARM公司,作为Acorn的一家子公司。

  1991——至今ARM的产品已经横贯应用程序处理器,嵌入式处理器,专家系统等各种计算领域,成为了移动电子消费品市场、复杂工业控制应用的首选处理器体系架构。


  2.3 ARM产品系列简介

  2.3.1 经典ARM 处理器

  这一系列包括的处理器架构有:

  l ARM11 系列 —— 基于ARMv6 体系结构的高性能处理器

  l ARM9 系列 —— 基于ARMv5 体系结构的常用处理器

  l ARM7 系列 —— 面向普通应用的经典处理器

  该系列适用于那些希望在新应用中追求稳定的产品。这些处理器提供了许多的特性、卓越的功效和范围广泛的操作能力,适用于成本敏感型解决方案。这些处理器每年都有数十亿的发货量,因此可确保设计者获得最广泛的体系和资源,从而最大限度地减少集成过程中出现的问题并缩短上市时间。


  2.3.2 ARM Cortex 嵌入式处理器

  这一系列的处理器架构有:

  l Cortex-R 系列 —— 面向实时应用的卓越性能

  l Cortex-M 系列 —— 面向具有确定性的微控制器应用的成本敏感型解决方案

  Cortex-M 系列处理器主要是针对微控制器领域开发的,在该领域中,既需进行快速且具有高确定性的中断管理,又需将门数和可能功耗控制在最低;而Cortex-R 系列处理器的开发则面向深层嵌入式实时应用,对低功耗、良好的中断行为、卓越性能以及与现有平台的高兼容性这些需求进行了平衡考虑。


  2.3.3 ARM Cortex 应用程序处理器

  这一系列包括的处理器架构只有

  l Cortex-A 系列- 开放式操作系统的高性能处理器

  Cortex-A在高级工艺节点中可实现高达2GHZ+的主频,也正是由于如此卓越的性能,该处理器架构可用于下一代Internet设备,而且该系列提供单核和多核多种种类,并且提供NEON多媒体处理模块的四种选择和高级浮点执行单元和处理单元。


  2.3.4 ARM 专家处理器

  这一系列包括的处理器架构只有

  l SecurCore - 面向高安全性应用的处理器

  l FPGA 内核- 面向FPGA 的处理器

  该系列的处理器主要是为了满足一些特定市场的苛刻需求。SecurCore可以用于手机SIM卡和其他识别应用,集成了多种既可以为用户提供卓越性能,又可以检测和避免安全攻击的技术。


  2.4 ARM指令集

  谈到ARM的指令系统,必须先明确一点的就是,ARM体系结构不同于x86,它是RISC(Reduced InstrucTIon Set Computer)体系结构。所以,在ARM指令体系中,各指令相对来说更加规整、对称、简单。而且指令小于100条,基本寻址方式只有2~3中,而且指令字长都比较一直,并都在单个时钟周期内完成,以便于流水操作。在ARM7中采用的是3级流水线:取值、译码、执行。而ARM9和ARM10则是五级流水线和六级流水线。ARM的访存采用的都是LOAD-STORE结构,这样可以把每条指令的执行时间都平均化,有助于高效的流水线的实现,采用这种结构也就同时意味着指令都要在寄存器间进行操作,所以ARM体系中有大量的寄存器(不少于32个)。


  2.4.1 ARM指令与Thumb指令

  ARM指令集可以是32位长的ARM指令,也可以是16位长的Thumb指令,这主要是为了兼容数据总线为16位的应用系统。所有的Thumb指令都有对应的ARM指令,Thumb只是ARM的一个真子集,而且Thumb指令舍弃了ARM指令集的一些特性,如大多数Thumb指令都是无条件执行的,而几乎所有的ARM指令都是有条件执行的,又如大多数的Thumb指令由于长度有限,目的寄存器是源寄存器中的一个,这跟x86的汇编指令集相似。


  Thumb指令的优点在于它可以在保留32位代码优势的同时,大大节省系统的存储空间,因为在Thumb指令集中的操作数仍然是32位的,指令地址也是32位的,只是指令编码变成了16位,而ARM指令则为32位,所以,相比之下,实现同样的功能,Thumb指令的条数要比ARM略多。图2.1是“Add Rd,#Constant”在Thumb状态和ARM状态下的指 令比较:

  由上图我们可以清楚地看到Thumb指令的精简之处,所以Thumb的存储空间仅仅是ARM存储空间的60%~70%,但是Thumb的指令条数比ARM指令条数多30%~50%,如果使用32位的存储器,由于指令条数较少等原因,ARM指令会比Thumb指令快40%左右,而使用16位存储器时,Thumb指令则会快40%~50%。同时与ARM比较Thumb指令的功耗会降低约30%。但是Thumb指令也有其局限性。第一、偏移范围,在Thumb指令中条件转移偏移只有8位,也就是说只能在256Byte的范围内有条件地转移,在无条件转移中可以有16位的偏移,而这些在ARM指令中都是32位,大大提高了灵活性。同时,在Thumb指令中不支持乘法和累加,没有协处理器指令没有信号量指令也没有CPSR指令。


  在面临二者的取舍的时候,同其它无数的案例一样,发挥各自的长处是最完美的解法。如果系统对性能要求较高,应采用32位的存储器和ARM指令集,而对功耗和成本要求较高,则应使用Thumb指令集。但是如果两者结合使用,让它们充分发挥各自的优点,则会取得更好的效果。


  ARM指令的基本格式如下:

  《opcode》 {《cond》} {S} 《Rd》 ,《Rn》{,《operand2》}

  其中《》号内的项是必须的,{}号内的项是可选的,opcode为指令助记符;cond是该动作的执行条件;S表示影响CPSR寄存器(程序状态寄存器)的值,如果不加则表示不影响 CPSR的值;Rd表示运算结果的目标寄存器;Rn表示第1个操作数的寄存器;operand2表示第2个操作数,可选。


  同时,ARM芯片还支持协处理器,在ARM指令集中有对协处理器的数据操作、数据读取、数据写入和CPU与协处理器的寄存器传送的相应指令。


  2.5 ARM体系结构对运行平台的支持 ——Jazelle技术

  运行Java虚拟机(JVM)解释Java字节码这种方式对大多数嵌入式应用来说占用空间过多,运行速度过慢。而系统发展的趋势及市场的需求决定了Java应用需要有更强的图形处理能力以及一个强大的Java虚拟机。于是催生出了Jazelle技术,从硬件上对Java虚拟机提供支持。 Jazelle DBX(Direct Bytecode eXecuTIon)是一种硬件架构扩展技术,为ARM处理器引入了第三套指令集—Java字节码。新指令集建立了一种新的状态,处理器在此状态下处理Java字节码取指令、译码和维护Java操作数栈等任务。允许它们在某些架构的硬件上加速执行Java字节码,就如其他执行模式般,它能在现存的ARM与Thumb模式之间互相切换。为了降低芯片尺寸并提高性能,Jazelle DBX没有设计成传统形式的微引擎,而是融入流水线中的一个有限状态机。

  Jazelle DBX技术增加了一条新的“Branch-to-Java”指令来进入Java状态。此指令支持条件执行,先检查条件标志,如果条件满足,处理器进入Java状态,跳转到指定目标地址,开始执行Java字节码。在Java状态下,PC寄存器仍是32位寻址Java字节代码。字节码的取指、译码分别在两个流水段完成(对应ARM/Thumb状态下为一个译码流水级)。32位的取指令操作一次性可以取4个Java字节码,性能优势十分明显,对于一个高度优化的商业Java虚拟机,运行评测程序或复杂的MIDP2.0应用,Jazelle DBX技术通常可带来约2~4倍的性能提升。Jazelle DBX技术允许所有的Java指令是“可重新开始”的。这样在执行Java指令过程中,即刻响应中断,从而减少中断延迟,确保实时性能。


  在ARM处理器的Java状态下,有若干个ARM寄存器可以功能复用(包括栈指针、栈顶四项(top4 elements of stack)、局部变量0等)。正是这些硬件复用设计,才使得只用了很少的额外逻辑(约一万两千门)就实现了一个Java机。把所有Jazelle DBX扩展所需的状态用ARM寄存器保存,也保证了和现有操作系统、中断处理程序和异常处理代码的兼容性。把栈顶四项保存在ARM寄存器中也能提高Java性能。大量的程序分析显示,大多数程序的栈深度是很小的,所以这项策略可以尽量减少内存访问,硬件也可自动处理栈溢出或下溢。


  和Java协处理器或其它专用Java处理器设计不同的是,Jazelle DBX和主处理器共用缓存,这一方面能够降低功耗,而且还可以提高性能。另一个重要的设计考虑是确保Jazelle DBX技术不会影响实时中断性能,仍保持与操作系统中已有ARM异常处理代码的兼容。图2.3是在加入了Jazelle的ARM处理器中运行Java应用的垂直架构架图。

关键字:arm  构架分析  体系结构 引用地址:arm构架分析

上一篇:arm的具体含义是什么?
下一篇:arm选型指南

推荐阅读

ADC多通道采集是在ADC单通道DMA传输的基础上写的,代码如下:volatile u16 adcconverdata[2]={0,0};static void ADC_GPIO_Config(void){ GPIO_InitTypeDef GPIO_InitStructure;RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOA, ENABLE);GPIO_InitStructure.GPIO_Pin=GPIO_Pin_1|GPIO_Pin_2;//添加PA2的GPIO初始化代码GPIO_InitStructure.GPIO_Mode=...
据国际机器人联合会(R)发布的《全球机器人2019——工业机器人》报告数据,2018年全球工业机器人出货量42.2万台,比上年增长6%;年销售额达到165亿美元,创下新纪录。 IFR预测,2019年的工业机器人出货量将从2018年的创纪录水平回落,但预计随着持续的自动化和技术改进,2020年至2022年,将实现两位数的增长——平均每年增长12%,预计2022年将达到58....
单片机源程序如下:#include <reg52.h> // 头文件包含#include <intrins.h> #define uchar unsigned char // 以后unsigned char就可以用uchar代替#define uint unsigned int // 以后unsigned int 就可以用uint 代替sbit Bu...
  振动式料位开关多用于控制和检测料仓或容器中的固体颗粒或粉末状物料,特别适用于易形成挂料、夹料的物质以及流动性较差的物质。  目前,在国外有一种振动料位检测装置,(如图1),该装置为了使内外振动体工作在同一谐振频率上,在内振动体上设置一可沿振动体的纵向方向移动的质量块作为调整体,该质量块的位置改变内振动体的质量分布,从而改变内...

史海拾趣

问答坊 | AI 解惑

电脑外部接口介绍

每台电脑,无论台式机还是笔记本,里里外外都有许多接口和插槽,你全都认识吗?也许你已经对USB、PS/2、VGA等常用接口非常熟悉,但是你知道SCART、HDMI,或USB接口分为Type A、Type B等类型吗?总之这是一篇主要面对电脑初学者的文章,但那些有经验 ...…

查看全部问答∨

原理图&PCB设计点滴

1、电源部分设计时,一定要在电源入口加100uF或以上的电解/钽电容,及0.1uF的陶瓷电容。 2、模拟部分和数字部混合在布板时,一定让模拟部分聚在一起,这样模拟地会好处理,模拟地不要铺铜。处理完后应出现一个单独的空间(不与数字地相互交错嵌 ...…

查看全部问答∨

wceload.exe安装Cab文件,可否更改安装路径?

使用Wceload安装文件时,发现都会默认安装到program files下面,因为要安装的程序较大,希望是能在安装时修改安装路径到Storage下面,谢谢各位提供方法!…

查看全部问答∨

如果在应用程序中清除USB管道缓冲区?

    我现在在做一个通过USB接口传输数据给另一个PC的程序。PC通过USB接口连接开发板,开发板的另一个USB接口连接另一台PC。当数据到达板子后,数据立刻就被转发出去。我现在想请问的是如果接收的数据有误,就需要后续写入的数据,我想请 ...…

查看全部问答∨

不能说我很迷茫,只是有点糊涂……

现在在学嵌入式开发,不知道是学应用编程好还是学驱动开发,我个人是偏向于linux驱动开发,因为本科的时候是学电子的,不过听说先学好应用编程再学驱动的话会方便点,问题是现在时间有点紧,因此只能选择其中一种,糊涂了。。。 简单点说就是:有C ...…

查看全部问答∨

AXD调试的问题

我的源代码很简单,如下:  1: ldr r0,=WTCON       ;watch dog disable    2: ldr r1,=0x0             3: str r1,[r0]       ldr r0,=INTMSK   &nbs ...…

查看全部问答∨

KMD与WDM实现ring0的区别?

比如想让我的代码进入ring0  这两种驱动用那种好呢?   他们分别有什么区别呢? 他们在实现ring0上 功能都是一样的吧.…

查看全部问答∨

软件外包项目,急

我们这有个WinCE软件外包项目,能够承接外包的朋友请加QQ:377536485  或者MSN:chenlin@imhongyu.com…

查看全部问答∨

开始调试44b0板子

     开始学习32位的ARM7——44b0,感觉比51单片机确实是复杂一些,关键是寄存器非常多,每次用之前都得定义一下,感觉确实麻烦一些,刚开始用确实不怎么熟练,还得加强编程,单看书是没有用的,还是多写这样才会来感觉,这样 ...…

查看全部问答∨

唉 悲剧了很多次 大家调试单片机引以为戒的的例子

1. FET仿真器连台式电脑  FET连430开发板接稳压电源使用 430开发板接另一板子进行AD采样事故:  由于FET接在电脑上 与  430 的JTAG没有隔离 导致 两边的地线存在110V的交流电 导致IO AD损坏防止的方法: 使用隔离型的仿真器调试2 43 ...…

查看全部问答∨
小广播
设计资源 培训 开发板 精华推荐

最新单片机文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved