时长约40~50min
根据本机架构做矩阵乘法分块优化,没撕出来,20多min
1. 聊高性能计算与云计算课程内容。
2. 二维数组按行读快还是按列读快,为啥按行读快。
3. 如何优化矩阵乘法。
4. 读写数据的时候,cpu、cache、内存有什么交互。
5. cpu不会把刚写到cache的数据立刻写回到内存,那么对于多核cpu,一个刚写完一个变量,另一个要取变量,而这个变量的最新版本在前者的cache,内存里还没有,那怎么获取最新数据(保持一致性)。
答案是在cpu之间有总线,后者可以走总线直接访问到前者的cache。