关于FFTW3和NE10在树莓派2上执行FFT和IFFT的耗时比较
硬件配置:Cortex-A8 四核 900MHz ARM
FFTW3 (2d r2r 512x512点 测试1000次) (Exynos4412 Cortex-A9 四核 1.5GHz)
FFT 时间:50.921s 50.328s 50.652s 21.939142s 24.838905s 25.043833s 25.115393s 24.624407s
IFFT时间:51.286s 50.627s 50.823s 28.196007s 28.060387s 28.343035s 28.370632s 27.838223s
(1d r2r 512x512点 测试1000次)
FFT 时间:70.391s 72.134s 71.178s
IFFT时间:96.774s 105.113s 104.367s
(2d c2c 512x512点 测试1000次)
FFT 时间:241.491s 235.613s 236.373s
IFFT时间:241.776s 240.890s 240.828s
NE10 (1d r2c 512x512点 测试1000次)
FFT 时间:76.786s 77.233s 76.813s
IFFT时间:76.982s 75.543s 75.516s
(1d c2c 512x512点 测试100次)
FFT 时间:15.873099 s 15.831748 s 15.850939 s 15.848197 s 15.833346 s
IFFT时间:15.977381 s 15.940668 s 15.965374 s 15.964364 s 15.942450 s
(1d c2c 256x256点 测试100次)
FFT 时间:2.780933 s 2.765150 s 2.777724 s 2.765805 s 2.766922 s
IFFT时间:2.805025 s 2.792639 s 2.802393 s 2.791195 s 2.793669 s
(1d c2c 128x128点 测试100次)
FFT 时间:0.362582 s 0.345205 s 0.374735 s 0.358193 s 0.346353 s
IFFT时间:0.367153 s 0.349636 s 0.376530 s 0.365579 s 0.354221 s
(1d c2c 64x64点 测试100次)
FFT 时间:0.060379 s 0.059997 s 0.060477 s 0.060808 s 0.059932 s
IFFT时间:0.061655 s 0.061425 s 0.061832 s 0.062145 s 0.061299 s
硬件配置 i5
FFTW3 (2d c2c 512x512 测试1000次)
FFT 时间:9.916s 10.621s 7.268s 10.309s 7.989s
IFFT时间:6.993s 10.358s 10.839s 10.531s 10.471s
宋捷RL算法openmp优化加速比
512x512非盲去卷积时间(三通道,内迭代4次(含2个FFT,2个IFFT),外迭代20次):
未加速:5.532s 5.462s 5.494s 5.492s 5.425s
加速: 2.460s 2.355s 2.584s 2.551s 2.762s
平均加速比:2.162