这里贴改进前的运行结果。
main: 100s
这里贴改进后的运行结果。
main: 0.01s
main: 10000x
如果记录了多种优化方法,可以做表格比较
你是如何封装稀疏网格的 Grid 类的?
有没有用位运算量化减轻内存带宽?
你封装的 Grid 是否可以并行访问?OpenMP 还是 TBB?
有没有用访问者模式缓存坐标,避免重复上锁?
对于 step()
中这种插桩你是如何优化的?用了老师的什么知识点?
请回答。
如果利用了一些 SIMD 指令,循环分块等,请务必炫耀一下,并比较使用前后的加速效果。