自从RISC类型的CPU开发出来以后,拥有缓存的CPU已经越来越普遍了,从嵌入式的CPU到桌面通用的CPU,或者大型机群的CPU,都具有大量的缓存。由于很多程序都具有局部循环特性,使用缓存就可以大大地提高CPU效率。比如像下面的程序:
int nSum = 0;
for(int i = 0; i < 10000; i++)
{
nSum += i;
}
上面这段程序,就可以在缓存里保存下来后,不再用去访问内存了。如果没有缓存的话,就需要每条指令到内存里读取出来再执行,这样做的速度就比有缓存的情况下慢很多了。
现在先看看龙芯的缓存是怎么样组织,有什么特性,从龙芯的用户手册里可以看到,龙芯2E具有三个独立的缓存,一级指令缓存64K,一级数据缓存64K,二级混合缓存512K。一级缓存采用虚地址索引和物理地址标志,二级缓存的索引和标志采用的都是物理地址。一级和二级缓存都采用随机替换算法。由于具有两级缓存,为了确保缓存数据与内存里的数据一致性,在龙芯的指令里还一条同步指令SYNC,只要运行这条指令,就可以让所有缓存与内存里的数据达到一致。
do_caches:
TTYDBG("Sizing caches...\r\n");
mfc0 t3, COP_0_CONFIG /* t3 = original config */
and t3, 0xffffeff0 /* Make sure coherency is OK */
and t3, ~(CF_7_TE|CF_7_SE|CF_7_TC|CF_7_SC) /* disable L2/L3 cache */
mtc0 t3, COP_0_CONFIG
上面的代码,首先读取COP_0_CONFIG寄存器值,然后把关闭缓存位置位,最后修改配置寄存器。
li t2, 4096
srl t1, t3, 9
and t1, 3
sllv s3, t2, t1 /* s3 = I cache size */
#ifdef CONFIG_CACHE_64K_4WAY
sll s3,2
#endif
and t1, t3, 0x20
srl t1, t1, 1
addu s4, t1, 16 /* s4 = I cache line size */
srl t1, t3, 6
and t1, 3
sllv s5, t2, t1 /* s5 = D cache size */
#ifdef CONFIG_CACHE_64K_4WAY
sll s5,2
#endif
and t1, t3, 0x10
addu s6, t1, 16 /* s6 = D cache line size */
TTYDBG("Init caches...\r\n")
li s7, 0 /* no L2 cache */
li s8, 0 /* no L3 cache */
上面代码是通过配置寄存器里的参数来计算指令缓存和数据缓存的大小,以便后面可以初始化缓存,当然也许有人想到使用CPU ID来进行判断缓存的大小,但是同一ID的CPU缓存也可能是不一样的。
TTYDBG("godson2 caches found\r\n")
bal godson2_cache_init
nop
上面的代码接着就根据计算的参数去初始化缓存,下面接着去看它的代码实现。
LEAF(godson2_cache_init)
####part 2####
cache_detect_2way:
mfc0 t4, CP0_CONFIG
andi t5, t4, 0x0e00
srl t5, t5, 9
andi t6, t4, 0x01c0
srl t6, t6, 6
addiu t6, t6, 11
addiu t5, t5, 11
addiu t4, $0, 1
sllv t6, t4, t6
srl t6,1
sllv t5, t4, t5
srl t5,1
addiu t7, $0, 2
####part 3####
lui a0, 0x8000
addu a1, $0, t5
addu a2, $0, t6
cache_init_d2way:
#a0=0x80000000, a1=icache_size, a2=dcache_size
#a3, v0 and v1 used as local registers
mtc0 $0, CP0_TAGHI
上面的代码是计算出指令缓存的大小,数据缓存的大小,然后把CP0寄存器TagHi寄存清为0,由于这个寄存器是没有定义的。
addu v0, $0, a0
addu v1, a0, a2
1: slt a3, v0, v1
beq a3, $0, 1f
nop
mtc0 $0, CP0_TAGLO
cache Index_Store_Tag_D, 0x0(v0)
mtc0 $0, CP0_TAGLO
cache Index_Store_Tag_D, 0x1(v0)
mtc0 $0, CP0_TAGLO
cache Index_Store_Tag_D, 0x2(v0)
mtc0 $0, CP0_TAGLO
cache Index_Store_Tag_D, 0x3(v0)
beq $0, $0, 1b
addiu v0, v0, 0x20
上面的代码是通过循环初始化64K数据缓存。首先使用mtc0指令清空TagLo寄存器,然后把0x8000 0000开始的内存映射到数据缓存索引,它是通过指令cache来进行的。Index_Store_Tag_D的值是0x05,意思就是把v0寄存的值加上0x0,然后把索引地址设置到缓存寄存器TagLo和TagHi。这样就把64K数据缓存指向了0x8000 0000开始的64K内存了。
#if 1
1:
cache_init_l24way:
mtc0 $0, CP0_TAGHI
addu v0, $0, a0
addu v1, a0, 128*1024
1: slt a3, v0, v1
beq a3, $0, 1f
nop
mtc0 $0, CP0_TAGLO
cache Index_Store_Tag_S, 0x0(v0)
mtc0 $0, CP0_TAGLO
cache Index_Store_Tag_S, 0x1(v0)
mtc0 $0, CP0_TAGLO
cache Index_Store_Tag_S, 0x2(v0)
mtc0 $0, CP0_TAGLO
cache Index_Store_Tag_S, 0x3(v0)
beq $0, $0, 1b
addiu v0, v0, 0x20
上面的代码是通过循环初始化512K二级缓存。Index_Store_Tag_S的值是0x0B,也就是1011B,设置二级缓存的索引。
1:
cache_flush_4way:
addu v0, $0, a0
addu v1, a0, 128*1024
1: slt a3, v0, v1
beq a3, $0, 1f
nop
cache Index_Writeback_Inv_S, 0x0(v0)
cache Index_Writeback_Inv_S, 0x1(v0)
cache Index_Writeback_Inv_S, 0x2(v0)
cache Index_Writeback_Inv_S, 0x3(v0)
beq $0, $0, 1b
addiu v0, v0, 0x20
# endif
上面的代码是清空二级缓存数据,把内存有效的数据加载到二级缓存。
1:
cache_flush_i2way:
addu v0, $0, a0
addu v1, a0, a1
1: slt a3, v0, v1
beq a3, $0, 1f
nop
cache Index_Invalidate_I, 0x0(v0)
# cache Index_Invalidate_I, 0x1(v0)
# cache Index_Invalidate_I, 0x2(v0)
# cache Index_Invalidate_I, 0x3(v0)
beq $0, $0, 1b
addiu v0, v0, 0x20
上面的代码是初始化一级指令缓存,并把有效数据加载进来。
1:
cache_flush_d2way:
addu v0, $0, a0
addu v1, a0, a2
1: slt a3, v0, v1
beq a3, $0, 1f
nop
cache Index_Writeback_Inv_D, 0x0(v0)
cache Index_Writeback_Inv_D, 0x1(v0)
cache Index_Writeback_Inv_D, 0x2(v0)
cache Index_Writeback_Inv_D, 0x3(v0)
beq $0, $0, 1b
addiu v0, v0, 0x20
上面的代码是加载数据到一级数据缓存。
1:
cache_init_finish:
nop
jr ra
nop
cache_init_panic:
TTYDBG("cache init panic\r\n");
1: b 1b
nop
.end godson2_cache_init
到这里已经把一级和二级缓存已经初始化完成,就把缓存映射到内存了,接着就可以把代码拷贝到0x8000 0000到0x9FFF FFFF的虚拟内存运行,这样在内存运行的代码就非常快了。
查看本文来源