改进前

这里贴改进前的运行结果。
main: 100s

改进后

这里贴改进后的运行结果。
main: 0.01s

main: 10000x

如果记录了多种优化方法，可以做表格比较

你是如何封装稀疏网格的 Grid 类的？

有没有用位运算量化减轻内存带宽？

你封装的 Grid 是否可以并行访问？OpenMP 还是 TBB？

有没有用访问者模式缓存坐标，避免重复上锁？

对于 step() 中这种插桩你是如何优化的？用了老师的什么知识点？

请回答。

如果利用了一些 SIMD 指令，循环分块等，请务必炫耀一下，并比较使用前后的加速效果。