采用TI多标准基站SoC实现性能、效率与差异化的全面提升
扫描二维码
随时随地手机看文章
介绍
随着消费者对智能电话需求的日益增长以及无线平板电脑的广泛普及,当今的移动因特网需要连接越来越多的用户,从而要求移动网络实现显著的容量增长。长期演进 (4G LTE) 能够以更低的成本提供更高的频谱效率与更大的容量。不断演进的 LTE-Advanced (LTE-A) 能够可实现具有更高带宽、更强吞吐能力与更高级天线技术的异构网络。同时,WCDMA 标准也在不断演进发展,具有更高的带宽以及更强大的吞吐能力。毋庸置疑,市场需要推出多标准基站。其结果是,部署在基站中的片上系统 (SoC) 器件不仅需要支持 LTE,还需要同时支持WCDMA 及其它原有标准。作为当今无线基站部署所采用无线基站 SoC 的领先供应商,德州仪器 (TI) 在该市场领域拥有长期成功的历史。在本白皮书中,我们将与大家分享我们 10 余年积累的“学习周期”体验和我们最新开发的无线基站 SoC —— TMS320CTCI6616和TMS320CTCI6618。
自无线网络诞生以来,其数据吞吐能力已实现快速增长。对营运商来说,最终的衡量标准是频谱每赫兹承载的比特数,以及实现特定吞吐能力所需的相关成本及功耗。一直以来,在无线标准升级的每一个转折点,TI 都无一不为基站设备带来价值与创新。如今,TI 的基站 SoC 只需少量电路系统即可处理无线基带第 1 层 (L1)、第 2 层 (L2) 与传输功能。TI 10 余年的丰富经验建立在成功的部署周期之上,主要体现在在以下方面积累的丰富知识:
1. TI 在最新的半导体工艺技术节点上成功推出众多器件,不仅能够实现显著的性能提升,同时还能大幅降低成本及功耗;
2. TI 在 DSP 技术领域拥有稳固的领先地位。毋庸置疑,无线基站需要为全球无线标准的传输与接收提供充分的数字信号处理能力。TI 拥有强大的实力,能够利用其行业领先的半导体工艺技术持续推出数字处理性能不断飞速发展的未来产品。各种优势全面结合,即能为市场推出高性价比的解决方案;
3. TI 始终致力于改进其高性能多内核 SoC。虽然无线基站的大多数功能都能够由 DSP 执行,但 DSP 最为擅长的则是与目标加速器相结合来实现各种优化目标,其中包括实现极高的单位频率吞吐能力、单位功率吞吐能力以及低系统成本等。在将硬件加速与业界领先 DSP 相结合以减轻无线标准的处理方面,TI 极为成功,能够以极低的成本与低功耗实现前所未有的吞吐能力。
TI 基站创新的第三个主要部分是本文的重点所在,即 TI 为基站 SoC 创建可配置硬件加速器的成功战略。在决定将无线信号处理链上的哪些部分转移到可配置硬件加速模块中时,有若干关键问题需要考虑,其中包括:
2
1. 无线信号链的哪些部分发生重大变化的可能性最小,而且哪些应基于成熟的标准之上?
2. 在候选功能中,设备制造商能否添加其自己的知识产权 (IP),以提供高级功能与差异化?
3. 无线信号链上的哪个部分具有最高的处理强度(如果在 DSP 的软件中实施时,需要最高的 DSP MIPS)?
4. 分配在硬件中的哪些功能可以简化并加快开发与测试?
5. 为确保全面的多内核能力与峰值加速器性能,需要何种类型的 SoC 基础局端?
要解决上述的第一个问题,需要确保无线处理标准的这些部分(无论仍处于开发中还是处于实验阶段)都将由 DSP 负责处理,这样营运商或 OEM 厂商才能实现解决方案的差异化。在对各种信号链功能及使用模型的 MIPS 要求进行分析后,就可以确定哪些功能应被移入硬件加速器,从而在降低成本和加快投产进度方面获得显著优势。
除了各种基于硬件的加速器外,TI 还创建了一种可确保实现高效率零复制数据流的创新型 KeyStone 架构,从而能够在内核、加速器以及外设之间实现非阻塞的系统互连。此外,该架构还能确保协处理器得到充分利用。它还可以减少中断及软件上下文环境的切换次数,以最大限度地实现所有内核的最佳利用,从而使所有系统组件都能得到全面利用。
确定系统优化的机会
确定新基站 SoC 设计方法的第一步,是考虑新一代基站的预期性能要求并理解其对SoC 设计的影响。
TCI6618 具备一系列针对新一代基站的用例目标参数。由于 TI TCI6488 是目前应用于基站的领先 SoC,因而其是一种非常适用于基线分析的器件。
下列各参数基于 LTE 系统中 TCI6488 器件的性能:
天线:2x2 发送与接收
带宽:20MHz
数据率:150 Mbps 下行,75 Mbps 上行
LTE 物理层概览
LTE 物理层需要对每个物理层通道进行高强度的信号处理。主要的物理层通道如下:
下行通道:
PDSCH:物理下行共享通道
PDCCH:物理下行控制通道
采用 TI 多标准基站 SoC 实现性能、效率与差异化的全面提升 2011 年 2 月
上行通道: 3
PUSCH:物理上行共享通道
PUCCH:物理上行控制通道
PRACH:物理随机访问通道
对于每个数据和控制通道而言,可将物理层处理分为两个主要的功能模块:比特率与 IQ 采样处理。
图 1 显示的 PDSCH 信号链由如下方面构成:
IQ 采样处理 — 处理 LTE 物理资源,将其映射到天线的不同层并转换为 OFDM 符号以用于空中传输。
比特率处理 — 处理来自 L2 的传输模块,通过计算循环冗余校验 (CRC) 并将其附加给传输模块来启动处理进程。如果传输模块大于 6,144 位的最大允许代码模块尺寸,则执行代码模块分段。在进行通道编码前,要进行新的 CRC 计算并将其附着于每个代码模块上。
图1 介绍了 LTE 下行链路中的主要功能模块。
图 1 - FDSCH 信号处理链
PUSCH 是 PDSCH 的反向过程,同样含有下列 IQ 样本与比特率处理:
IQ 样本处理 —— 处理接收到的 OFDM 符号物理资源。这涉及通道估算与最大比率合并 (MRC) /多输入、多输出 (MIMO) 均衡,以从各个天线分离用户数据。
比特率处理 —— 为在 L2 内实现进一步处理而进行的通道解调、解多路复用、错误校正与解码。
图 2 所示为 PUSCH 的信号处理链:
图2 - PUSCH 信号处理链
分析 TMS320TCI6488 中的 LTE 物理层处理 4
TCI6487/8 是 TI 最新系列的多内核 SoC,由三个 C64x+TM CPU 内核构成。采用这种 SoC 的运营商已有数百家,年出货量数百万片。通过分析 TCI6488 的 LTE 性能,可以深入了解如何构建新一代的高性能 SoC。图 3 所示为在 TCI6488 上采用 2x2 MIMO、150Mbps 下行吞吐速率及 75Mbps 上行吞吐速率时,20 MHz LTE 的周期占用数及分布。
图 3 - TCI6488 上的 LTE 物理层处理
从图上可以明显看出,FFT/IFFT、PDSCH 比特率处理、PUSCH 比特率处理与 PUCCH 占用了总 DSP 周期中的大部分。[!--empirenews.page--]
为进一步改进总体系统性能,满足新一代 LTE 系统的要求,必须设计出具备良好均衡性且可扩展的架构,以便最大限度地发挥 SoC 的多内核计算性能。这就要求最大限度地提高系统的互连吞吐量,并将存储器存取与数据传输时延降到最小。
通过对 LTE 要求的总处理周期进行分析,我们发现通过增强 DSP 内核的信号处理能力,不仅能够减少处理周期的总数量,而且还能增大系统容量、提升性能。最新推出的 C66x DSP 内核通过将 C64x+ 的乘/累加 (MAC) 能力锐升四倍可实现这一目标。此外,新内核还同时集成了定点与浮点功能,并可为矢量处理与矩阵处理提供新的指令。
如快速傅里叶变换 (FFT) 与快速傅里叶逆变换 (IFFT) 等特定函数需要在 LTE 信号链上的许多地方执行,并且用于在时域与频域之间进行数据转换。FFT 与离散傅立叶变换 (DFT) 已属成熟算法,因此它们有可能作为硬件加速的候选以用于释放 CPU 周期,这样 DSP 内核就可用于执行客户差异化功能。
5
LTE 的上行与下行比特率处理及其他无线技术包含众多标准算法,适用于调制、解调、交错、解交错、速率匹配、解速率匹配、加扰与去扰等运算。TI 新型比特率协处理器 (BCP) 是一种可为多种标准释放所有比特率处理功能的加速器,它可大幅度提升系统容量,从而简化软件编程、减少系统时延。
这些就是可以在 TCI6616 及 TCI6618 基站 SoC 中实现创新与性能飞跃提升的系统优化机会的示例。
TI KeyStone 架构
KeyStone 多内核 SoC 架构是业界同类架构中率先可提供基础局端以确保所有内核都能得到充分利用的架构。KeyStone 可实现对所有处理内核、外设、协处理器及 I/O 的非阻塞访问。可实现这类多内核能力的部分 KeyStone 创新技术包括:多内核导航器、TeraNet、多内核共享存储控制器 (MSMC) 及超链接。
TI 多内核导航器是一种基于分组的创新型管理器,能够在提取不同子系统间连接的同时,控制 8,192 个队列。它可为实现通信、数据传输及工作管理提供统一接口。通过采用“一次性完成,零复制”的设计理念,多内核导航器能够以更少的中断及更低的软件复杂度实现更高的系统性能。
举例来说,多内核导航器能够进行任务调度,且在无需外部管理的情况下即能指示下一个空闲 DSP 内核读取并处理任务。这样通过提供下列功能,即可简化 SoC 软件架构,进而提升基站的性能:
动态资源/负载共享
减轻与子系统间通信相关的 CPU 开销/延迟
基于硬件的任务优先级排序
动态负载平衡
针对所有 IP 模块(软件、I/O 及加速器)的通用通信方法
多内核导航器能够在无 CPU 干预的情况下控制数据流,可从移动数据中释放 CPU 周期并将片上通信速率提升至每秒 2,000 万条消息。此外,其还能够使用更为简单的软件架构以缩短开发周期并提高资源利用率。
TeraNet 能够提供层级交换结构,可在 SoC 内为数据传输提供超过 2 Tbit 的总带宽。这样几乎可确保不会出现内核与协处理器没有数据可处理的情况,从而使他们在任何需要的位置和时间都可以发挥其最大的处理功效。由于交换结构采用了层级架构而非扁平纵横式结构,因此总体功耗能在空闲状态下实现大幅度下降且能以最低时延实现高性能,从而充分满足新一代基站的这种关键要求。
多内核共享存储控制器 (MSMC) 是一种可增强性能的独特架构。MSMC 可以让内核在不占用任何 TeraNet 带宽的情况下直接访问共享存储器。MSMC 可以协调内核及其他 IP 模块对共享存储器的访问,以避免发生存储器争用的情况发生。DDR3 外部存储器接口 (EMIF) 可直接连接至 MSMC,从而降低因发生外部存储器存取而导致的时延,并为基站应用提供所需的高速访问与支持。
6
超链接具有 50Gbps 的总吞吐能力,是一种互连机制,能够以极少的协议实现与其它 KeyStone、FPGA 及 ASIC 器件的高速通信与连接。其可为主器件上的配套器件提供透明的存储器映射访问,从而不仅可大幅简化软件编程,同时还能为 OEM 厂商提供实现可扩展解决方案的无缝路径。
全新 DSP 内核
TCI66x SoC 解决方案包含性能显著增强的全新处理内核。其是业界首款同时集成了定点和浮点功能的基站 DSP 内核。增强的性能可帮助 OEM 厂商构建极富差异化功能的软件,从而满足高级操作人员的要求。
TMS320C66x 内核
作为 TI 的新一代定点及浮点 DSP,新型 C66x 内核具备集成了 8 个功能单元和 64 个通用 32 位寄存器的高级 VLIW 架构。全新系列器件基于 TI 前代 C64x+ 内核架构之上,拥有屡获殊荣的指令集架构和众多功能强大的特性,如每个周期能够执行 8 个指令,从而可实现高度的并行性能。
全新的 C66x DSP 内核实现众多特性改进,其中包括:
原生浮点处理,可逐指令地与定点实现无缝协作。通过以业界领先的定点 DSP 速度提供原生浮点支持,实现了浮点处理领域的重大进步;
MAC 实现了 4 倍的性能提升,每周期可提供 32 个 16x16 位 MAC;
专为复杂算法、线性代数和矩阵运算而精心优化;
全流水线双精度浮点乘法器;
减少双精度乘法时延。
所有这些改进都能大幅提升 L1 和 L2 的总体处理性能。4G 基站解决方案具备 MIMO 和波束成形等算法,可充分利用多天线信号处理实现性能提升。这些算法通常需要矩阵逆转技术,从本质上来说非常容易遭受与定点处理相关的量化及扩展问题的影响。这些多天线技术仍在不断演进发展,具备可帮助客户实现差异化功能的实施灵活性至关重要。将最新的 C66x 增强功能用于矩阵运算和浮点支持,能够同时显著提高系统的速度和准确度,从而为移动电话用户带来更精彩的体验。
采用 C66x 内核增强 MIMO 接收机
我们同时在 LTE 和 LTE-A 中采用了众多高级接收机算法。例如,在 LTE-A 新技术中可实现更先进的多用户 MIMO (MU-MIMO) 预编码方案。此外,单用户 MIMO (SU-MIMO) 还可支持更高的数据速率。增强型 C66x 内核不仅可帮助设计团队在上述领域实现差异化特性,而且最终还能帮助他们实现操作人员所需的高级特性。
7
MIMO 解码在算法上非常复杂,往往需要使用客户 IP 来提升效率和性能。复杂度随天线数量的增加而相应增加。虽然大多数专家都一致认为第二种传输天线至少在最近几年都不会获得广泛使用,但当前的系统仍以 2xN(2 路传输,N 路接收)配置为主。实施 MIMO 接收机算法的方式有很多种,其中包括较低复杂侧的线性 MMSE 和较高复杂端的球状解码。在 OEM 厂商测试不同算法的时候,进行高效率的软件实施使他们能够在部署 LTE 系统的同时适配并测试不同的构想方案。这种高灵活性在基础局端部署的最初几年非常关键,直到新的网络落实,工程师才能更好地理解问题所在。
C66x 架构具备扩展指令集,可用于加速 DSP 内核的 MIMO 处理。浮点可以实现高效的矩阵反转算法,从而较定点实施相比能够实现更高的性能,而且与硬件加速相比能够实现更高的灵活性。通过充分发挥浮点功能和 4 倍的 MAC 性能改进,C66x DSP 内核中的 MIMO 处理量与前代 DSP 相比降低了 5 倍。
全新的加速功能
通过分析 LTE 和 WCDMA 系统要求,我们已确定了一些需要改进的功能,并按重要性进行如下排序:
FFT/IFFT/DFT
下行链路比特率处理
上行链路比特率处理
上行链路控制通道接收机
MIMO 接收机
WCDMA 传输码片率 IQ 采样处理 (TAC)
WCDMA 接收码片率 IQ 采样处理 (RAC)
此外,4G 较高的数据速率和高速 3G 系统都需要大量的改进才能完成 turbo 解码功能。
TCI6616 AccelerationPacs
为了更好地满足高速发展的 3G 和 4G 市场需求,TI 为 TCI6616 开发了众多新的加速器。
传输码片率协处理器 (TAC)
TAC 能为多达 256 个下行链路 WCDMA 用户执行传输码片率扩展运算。该加速器可将符号率处理的数据作为输入,然后再将芯片扩展序列输出到基站的各个天线输出端。
TAC 能够执行下列运算:
符号调制
开环分集处理,其中包括空间时间传输分集 (STTD) 和时间交换传输分集 (TSTD)
8
闭环处理,其中包括闭环分集、用于 HSDPA 的 MIMO、下行链路功率控制、上行链路功率控制、随机访问采集指示传输、E-DCH 相对授权和混合 ARQ 指示传输
各个通道的增益应用
支持压缩模式
扩展和加扰
功耗测量
媒体流失调和延迟
波束成型
媒体流汇总
TCA 支持所有 WCDMA 下行链路通道:
P-SCH:主同步通道
S-SCH:次同步通道
P-CPICH:主通用导频通道
S-CPICH:次通用导频通道
P-CCPCH:主通用控制物理通道
PICH:传呼指示器通道
AICH:采集指示器通道
HS-SCCh:高速共享控制通道
HS-PDSCH:高速物理下行链路共享通道
E-AGCH:E-DCH 绝对授权通道
E-RGCH:E-DCH 相对授权通道
E-HICH:E-DCH 混合 ARQ 指示器通道
MICH:MBMS 指示器通道
DPCH:专用物理通道
F-DPCH:部分专用物理通道
如 RNC 和 Node-B 之间的 NBAP(Node-B 应用部分)协议所示,TAC 可实现灵活的通道配置和重配置。[!--empirenews.page--]
接收加速器协处理器 (RAC) RAC 能为多达 256 个 WCDMA 用户执行上行链路码片率解扩运算。其包含基于矢量的高灵活性可配置关联引擎,能够支持大量的同步关联。
RAC 支持下列模式的运算:
FD:用于生成原始符号的径解扩
FT:用于执行 EOL(过早、按时、延迟)测量的径跟踪
FPE:用于执行径干扰关联的径功耗估算
9
PM:在天线上执行脉冲响应曲线以进行径探测的路径监控器
PD:在签名上执行脉冲响应曲线以进行前导码检测
SPE:执行宽带媒体流功耗测算的媒体流功耗估算功能
下面是 RAC 支持的上行链路物理通道:
DPCCH:专用物理控制通道
DPDCH:专用物理数据通道
HS-DPCCH:高速专用物理控制通道
E-DPCCH:增强型专用物理控制通道
E-DPDCH:增强型专用物理数据通道
PRACH:物理随机访问通道
Turbo 解码器 3 (TCP3d)
Turbo 解码器 3 协处理器 (TCP3d) 是前代 Turbo 解码器 2 的改进版本。TCP3d 可支持 WCDMA、TD-SCDMA、LTE 和 WiMAX,是一种在上行链路处理中对 Turbo 代码进行解码的可配置外设。TCP3d 的输入是系统位和校验位的软决策,而输出既可为软决策,也可为硬决策。为了最大限度地减少与使用该协处理器相关的开销,TCP3d 可生成 Turbo 交错表,并能在除执行解码之外还支持基于代码模块的 CRC 计算。其结果是 TCP3d 的开销比 TCP2 低 7 倍。TCP3d 在 TCI6616 上的吞吐量在 6 次迭代后为 389Mbps。
Turbo 编码器 (TCP3e)
Turbo 编码器协处理器3 (TCP3e) 是用于 Turbo 代码编码的协处理器,可支持 WCDMA、TD-SCDMA、LTE 和 WiMAX。输入 TCP3e 的是信息位,输出的则是编码后的系统位和校验位。它支持基于代码模块的 CRC、turbo 编码和 turbo 交错表生成,最大吞吐能力为 643Mbps。
快速傅立叶转换协处理器 (FFTC)
快速傅立叶转换协处理器 (FFTC) 可实施用于 LTE 和 WiMAX 的 FFT/iFFT 和 DFT/iDFT。多内核导航器 (Multicore Navigator) 使数据能够直接在协处理器端进行输入和输出路由,并传输到 I/O。此外,其还能执行周期性的前缀移除和插入以及频率转换,从而进一步降低 DSP 上的处理负载。FFTC 的吞吐能力为每秒 12.72 亿个副载波。
10
图 4 - TCI6616 方框图
全面集成 —— TCI6616
图 4 显示了 TCI6616 的方框图。
TCI6616 具有创新型 KeyStone 架构、增强型 C66x 内核并新增了 LTE 和 WCDMA 协处理器,能够为无线基站应用实现较其他 SoC 高 5 倍的性能提升。
TCI6618 AccelerationPacs
TCI6618 为 TCI6616 增添了加速特性,可将 LTE 性能翻番。由于 TCI6618 能够与 TCI6616 实现引脚兼容,因而 OEM 厂商可通过选择系统适用的器件轻松灵活地进行平台优化。
由于 LTE 系统能够处理比 3G 系统高得多的数据速率,因而加速测重于对比特率的处理。
比特率协处理器
比特率协处理器 (BCP) 是一种多标准的协处理器,其能够大幅减轻 DSP 的所有比特率处理任务,从而使信号链的位处理部分无需占用任何 DSP 周期。它能够显著简化了软件设计,并能实现极低的系统时延。BCP 可执行以下功能:
调制/解调
交错/解交错
速率匹配/解速率匹配
11
• 加扰/解扰
• LTE 的 PUCCH 解码
• Turbo 和卷积编码
• CRC 连接和校验
BCP 不仅能够针对 MIMO 均衡实现 turbo 干扰消除,而且还实现了高性能PUCCH format 2 解码。当 LTE 达到最大下行链路 2.2 Gbps 的吞吐量、上行链路 1.1 Gbps 的吞吐量时,BCP 可减轻大约 15 GHz 的DSP MIPS。对于 WCDMA 而言,最大下行链路吞吐量可达 800 Mbps,最大上行链路吞吐量达 400 Mbps。
图 5 - BCP 体系架构
在 BCP 内部,数据可通过一个内部交换结构从一个子模块流入另一个子模块。分组 DMA 流量管理器可通过 128 位的 BCP 导航器或直接 I/O 接口将流量从 BCP 进行输入与输出路由。BCP 以分组为单位进行数据处理,并能同时处理不同的标准。当将任务请求发送至 BCP 时,该任务首先被置入 BCP 导航器队列中。BCP 调度程序依据任务优先级选择需要处理的任务。接着,由子模块处理该任务。最后,可将 BCP 结果写入缓冲器,并将描述符置入完整的队列上有待进一步处理。因为极少需要软件的介入,因此对 DSP 的周期需求显著减少,同时 LTE 处理时延也会大幅降低。
我们在此将介绍另一种可简化 DSP 处理需求的方法,通过诸如连续或并行干扰消除(SIC 或 PIC)等高级接收机技术来提升接收机的 MIMO 性能。这些算法需要功能强大的比特率协处理器才能高效地实现。解码算法的迭代特征要求对数据进行多次解码、处理、重新编码和解码,这对一般普通的系统而言可谓巨大的计算负担,但对于 TCI6618 却能轻松处理。
采用 TI 多标准基站 SoC 实现性能、效率与差异化的全面提升 2011 年 2 月
12
Turbo PIC/SIC 的性能改进意义重大。例如,在 2x2 MIMO 方案中,一个调制为 QPSK 的典型的城域信道中,turbo PIC/SIC 能产生超过 3 dB 的信噪比 (SNR) 性能增益,从而与一般的接收机方法相比可提升高达 40% 的频谱利用率。这不仅对运营商的意义重大,同时也是 TCI6618 与其他产品的重要差别点。
图 6 显示了 Turbo 干扰消除的数据流。BCP 和 FFTC 可从反馈路径分担绝大多数的 Turbo 均衡周期。
图 6 - Turbo 干扰消除数据流
控制信道解码器
作为 LTE 物理上行链路控制信道,PUCCH 可承载上行链路的控制信息,例如调度请求、确认、重传请求、信道状态信息以及信道质量指示 (CQI) 等信息。信道信息解码会消耗很大的处理资源。(见图 3)
PUCCH CQI 通过 Reed Muller (20, A) 模块代码进行编码。各种不同类型的算法均可对此信息进行解码。一种非常实用的基于 MRC 的算法可在软件内实施,但其性能不高。BCP 针对 PUCCH format 2、2a、2b 实现了高级的联合信道均衡和解码算法。这与其他更为基础性的算法相比,可实现更高的性能。图 7 显示了分别采用 TCI6488 和 TCI6618 的实施周期比较。在该例中,我们对带 5 个资源模块的系统进行了仿真,每个系统均有 12 个 UE,并且使用 Reed Muller (20, 13) 进行编码。在具备双天线的情况下,对于从 DSP 内核上的软件到硬件加速器的传输处理中,BCP 承担了 98% 的总 PUCCH format 2 处理量。
与典型算法相比,使用联合检测算法能将信噪比 (SNR) 性能提高 1 到 3 分贝。这种增强的性能不仅将显著改进链路预算,而且还能减少 UE 的干扰,并提高下行频谱利用率,从而提高整个 LTE 系统的性能,以为移动用户带来更精彩的体验。
全面集成 —— TCI6618
除了 BCP 协处理器无与伦比的性能外,TCI6618 还添加了额外的 FFTC 和TCP3d 协处理器,能够实现 SoC 功能的完美平衡。因此,在 6 个迭代中,FFTC 的总吞吐量为 1,908 Mbps,TCP3d 的总吞吐量则为 582 Mbps。与 TCI6616 相比,TCI6618 凭借均衡 CPU 内核和协处理器 将 LTE 的能力提升了 2 倍以上。TCI6618 通过 2x2 MIMO 天线配置且利用高级接收机算法,可以支持两个 20MHz 的 LTE区,下行吞吐量总计可达 300Mbps,而上行吞吐量总计则可达 150Mbps。[!--empirenews.page--]
13
图 7 - TCI6618 可实现高级 PUCCH 接收机
图 8 显示了 TCI6618 的方框图:
图 8 - TCI6618 方框图
14
凭借 KeyStone 架构、高级 C66x 内核以及新型 BCP 等高吞吐量加速器,TCI6618 与此前系列的 SoC 器件相比,可实现显著的性能提升。图 9 显示了以图 3 为基础而生成的柱状图,阐述了 TCI6488 与 TCI6618 两者之间在 DSP 周期方面的比较结果。运行条件仍然是 20 MHz 的 LTE、2X2 MIMO、150 Mbps 的下行吞吐量以及 75 Mbps 的上行吞吐量。
图 9 - TCI6618 在 LTE 上的性能飞跃
我们从该图中看到,大约有 90% 的 TCI6488 DSP 处理任务被移至协处理器,从而实现了数量级的改进!
图 10 显示了 LTE 下行处理 (PDSCH) 的详细结构图,其中使用协处理器承担了几乎 95% 的处理任务。
图 10 - TCI6618 中的 PDSCH 处理
采用 TI 多标准基站 SoC 实现性能、效率与差异化的全面提升 2011 年 2 月
15
图 11 显示了 LTE 上行链路方框图及相关的协处理,其中大约 90% 的处理均由硬件加速器负责。
图 11 - TCI6618 中的 PUSCH 处理
这些图清晰地表明,BCP 可显著提高 LTE 的性能。由于所有比特率处理均被自动路由到 BCP,因而可大大简化软件设计并降低时延。在这样的数据速率(150 Mbps 的下行/ 75 Mbps 的上行)下运行,处理时延还不足 70 微秒。
BCP 不仅可以为 LTE 实现上述优势,而且也能为 WCDMA 分担比特率处理任务。与针对码片级扩频/解扩的 RAC 与 TAC 结合使用,可实现 HSDPA 信道几乎完全在硬件中处理。图 12 显示了 TCI6618 中的 HS-PDSCH 信号处理链。
图 12 - TCI6618 中的 HSDPA HS-PDSCH 处理
16
TCI6618 能够支持如下方案:具备 6 个使用 2x2 MIMO 的 HSDPA 单元,且每个单元的下行吞吐量为 42 Mbps。在该例中,有超过相当于 9 GHz 的 DSP处理任务被分配到专为 HS-PDSCH 信道设计的硬件中处理。
同样,对于 WCDMA 上行信道处理,图 13 显示了 HSUPA E-DPDCH 处理的信号链与周期分布。
图 13 - TCI6618 中的 HSUPA E-DPDCH 处理
结论 业界最佳的 TMS320TCI6618 与 TMS320TCI6616 SoC 经过精心设计,可支持无线数据的发展变革,以及从以语音为中心到以数据为中心的处理的演变过度。新的比特率协处理器 (BCP) 及 KeyStone 架构可为无线基站提供可实现最高性能的 SoC。集成定点与浮点功能的 C66x 内核能够为市场上功能最强大的 DSP 提供系统所需的灵活性。TI 借助多年来在无线基站基础局端领域积累的广博的专业知识和丰富的系统和现场经验成就了卓越的设计方法,能够实现业界最可靠、最高级的解决方案。在基于协处理器实现的加速功能和在 DSP 内核中实现的灵活处理功能之间,TMS320C6618/6 架构实现了完美的平衡,不仅能够为多样化的基站市场实现所需的差异化功能,而且还能继续帮助备选解决方案实现巨大的性能改进。