基于SSE指令集的程序设计

时间：2010-10-16 来源：CUKdd

SSE和SSE2的指令系统非常相似，SSE2比SSE多的仅是少量的额外浮点处理功能、64位浮点数运算支持和64位整数运算支持。 SSE为什么会比传统的浮点运算更快呢？因为它使用了128位的存储单元，这对于32位的浮点数来讲，是可以存下4个的，也就是说，SSE中的所有计算都是一次性针对4个浮点数来完成的。虽然SSE从理论上来讲要比传统的浮点运算会快，但是所受的限制也很多，首先，虽然它执行一次相当于四次，会比传统的浮点运算执行4次的速度要快，但是它执行一次的速度却并没有想象中的那么快，所以要体现SSE的速度，必须有Stream做前提，就是大量的流数据，这样才能发挥SIMD的强大作用。其次，SSE支持的数据类型是4个32位（共计128位）浮点数集合，就是C、C++语言中的float[4]，并且必须是以16位字节边界对齐的。因此这也给输入和输出带来了不少的麻烦，实际上主要影响SSE发挥性能的就是不停地对数据进行复制以适用应它的数据格式。如果你是一个C++程序员，对汇编并不很熟，但又想用SSE来优化程序，该怎么做呢？幸好VC++为我们提供了很方便的指令C函数级的封装和C格式数据类型，我们只需像平时写C++代码一样定义变量、调用函数就可以很好地应用SSE指令了。当然了，我们需要包含一个头文件，这里面包括了我们需要的数据类型和函数的声明： #include <xmmintrin.h>

SSE运算的标准数据类型只有一个，就是：__m128，它是这样定义的： typedef struct __declspec(intrin_type) __declspec(align(16)) __m128 { float m128_f32[4]; } __m128;

简化一下，就是： struct __m128 { float m128_f32[4]; };

比如要定义一个__m128变量，并为它赋四个float整数，可以这样写： __m128 S1 = { 1.0f, 2.0f, 3,0f, 4,0f };

要改变其中第2个（基数为0）元素时可以这样写： S1.m128_f32[2] = 6.0f;

令外我们还会用到几个赋值的指令，它可以让我们更方便的使用这个数据结构： S1 = _mm_set_ps1( 2.0f );

它会让S1.m128_f32中的四个元素全部赋予2.0f，这样会比你一个一个赋值要快的多。 S1 = _mm_setzero_ps();

这会让S1中的所有4个浮点数都置零。

还有一些其它的赋值指令，但执行起来还没有自己逐个赋值来的快，只作为一些特殊用途，如果想了解更多的信息，可以参考MSDN -> Visual Studio -> Reference -> C/C++Language -> Compiler Intrinsics -> MMX, SSE, and SSE2 Intrinsics -> Stream SIMD Extensions(SSE)章节。一般来讲，所有SSE指令函数都有3个部分组成，中间用下划线隔开： _mm_set_ps1 mm表示多媒体扩展指令集 set表示此函数的含义缩写

ps1表示该函数对结果变量的影响，由两个字母组成，第一个字母表示对结果变量的影响方式，p表示把结果作为指向一组数据的指针，每一个元素都将参与运算，S表示只将结果变量中的第一个元素参与运算；第二个字母表示参与运算的数据类型。s表示32位浮点数，d表示64位浮点数，i32表示32位定点数，i64表示64位定点数。

接下来举一个例子来说明SSE的指令函数是如何使用的，必须要说明的是我以下的代码都是在VC7.1的平台上写的，不保证对其它如Dev-C++、Borland C++等开发平台的完全兼容。为了方便对比速度，会用常规方法和SSE优化两种写法写出，并会用一个测试速度的类CTimer来进行计时。

这个算法是对一组float值进行放大，函数ScaleValue1是使用SSE指令优化的，函数ScaleValue2则没有。我们用10000个元素的float数组数据来测试这两个算法，每个算法运算10000遍，下面是测试程序和结果： #include <xmmintrin.h> #include <windows.h> class CTimer { public: __forceinline CTimer( void ) { QueryPerformanceFrequency( &m_Frequency ); QueryPerformanceCounter( &m_StartCount ); } __forceinline void Reset( void ) { QueryPerformanceCounter( &m_StartCount ); } __forceinline double End( void ) { static __int64 nCurCount; QueryPerformanceCounter( (PLARGE_INTEGER)&nCurCount ); return double( nCurCount * ( *(__int64*)&m_StartCount ) ) / double( *(__int64*)&m_Frequency ); } private: LARGE_INTEGER m_Frequency; LARGE_INTEGER m_StartCount; }; void ScaleValue1( float *pArray, DWORD dwCount, float fScale ) { DWORD dwGroupCount = dwCount / 4; __m128 e_Scale = _mm_set_ps1( fScale ); for ( DWORD i = 0; i < dwGroupCount; i++ ) { *(__m128*)( pArray + i * 4 ) = _mm_mul_ps( *(__m128*)( pArray + i * 4 ), e_Scale ); } } void ScaleValue2( float *pArray, DWORD dwCount, float fScale ) { for ( DWORD i = 0; i < dwCount; i++ ) { pArray[i] *= fScale; } } #define ARRAYCOUNT 10000 int __cdecl main() { float __declspec(align(16)) Array[ARRAYCOUNT]; memset( Array, 0, sizeof(float) * ARRAYCOUNT ); CTimer t; double dTime; t.Reset(); for ( int i = 0; i < 100000; i++ ) { ScaleValue1( Array, ARRAYCOUNT, 1000.0f ); } dTime = t.End(); cout << "Use SSE：" << dTime << "秒" << endl; t.Reset(); for ( int i = 0; i < 100000; i++ ) { ScaleValue2( Array, ARRAYCOUNT, 1000.0f ); } dTime = t.End(); cout << "Not Use SSE：" << dTime << "秒" << endl; system( "pause" ); return 0; } Use SSE：0.997817 Not Use SSE：2.84963 这里要注意一下，此处使用了__declspec(align(16))作为数组定义的修释符，这表示该数组是以16字节为边界对齐的，因为SSE指令只能支持这种格式的内存数据。

SSE
- CVTSI2SS – 把一个64位的有符号整型转换为一个浮点值，并把它插入到一个128位的参数中。内部指令：_mm_cvtsi64_ss
- CVTSS2SI – 取出一个32位的浮点值，并取整（四舍五入）为一个64位的整型。内部指令：_mm_cvtss_si64
- CVTTSS2SI – 取出一个32位的浮点值，并截断为一个64位的整型。内部指令：_mm_cvttss_si64
SSE2
- CVTSD2SI – 取出最低位的64位浮点值，并取整为一个整型。内部指令：_mm_cvtsd_si64
- CVTSI2SD – 取出最低位的64位整型，并将其转换为一个浮点值。内部指令：_mm_cvtsi64_sd
- CVTTSD2SI – 取出一个64位的浮点值，并截断为一个64位的整型。内部指令：_mm_cvttsd_si64
- MOVNTI – 写64位数据到特定内存位置。内部指令：_mm_stream_si64
- MOVQ – 移动一个64位的整型到一个128位的参数中，或从128位的参数中移动一个64位的整型。内部指令：_mm_cvtsi64_si128、_mm_cvtsi128_si64
SSSE3
- PABSB / PABSW / PABSD – 取有符号整型的绝对值。内部指令：_mm_abs_epi8、_mm_abs_epi16、_mm_abs_epi32、_mm_abs_pi8、_mm_abs_pi16、_mm_abs_pi32
- PALIGNR – 结合两个参数并右移结果。内部指令：_mm_alignr_epi8、_mm_alignr_pi8
- PHADDSW – 将两个包含16位有符号整型的参数相加，并尽量使结果为16位可表示的最大值。内部指令：_mm_hadds_epi16、_mm_hadds_pi16
- PHADDW / PHADDD – 将两个包含有符号整型的参数相加。内部指令：_mm_hadd_epi16、_mm_hadd_epi32、_mm_hadd_pi16、_mm_hadd_pi32
- PHSUBSW – 将两个包含16位有符号整型的参数相减，并尽量使结果为16位可表示的最大值。内部指令：_mm_hsubs_epi16、_mm_shubs_pi16
- PHSUBW / PHSUBD – 将两个包含有符号整型的参数相减。内部指令：_mm_hsub_epi16、_mm_hsub_epi32、_mm_hsub_pi16、_mm_hsub_pi32
- PMADDUBSW – 相乘并相加8位整型。内部指令：_mm_maddubs_epi16、_mm_maddubs_pi16
- PMULHRSW – 乘以16位有符号整型，并右移结果。内部指令：_mm_mulhrs_epi16、_mm_mulhrs_pi16
- PSHUFB – 从一个128位的参数中选取并乱序其中8位的数据块。内部指令：_mm_shuffle_epi8、_mm_shuffle_pi8
- PSIGNB / PSIGNW / PSIGND – 求反（取非）、取零、或保留有符号整型。内部指令：_mm_sign_epi8、_mm_sign_epi16、_mm_sign_epi32、_mm_sign_pi8、_mm_sign_pi16、_mm_sign_pi32
SSE4A
- EXTRQ – 从参数中取特定位。内部指令：_mm_extract_si64、_mm_extracti_si64
- INSERTQ – 插入特定位到给定参数中。内部指令：_mm_insert_si64、_mm_inserti_si64
- MOVNTSD / MOVNTSS – 不使用缓存，直接把数据位写到特定内存位置。内部指令：_mm_stream_sd、_mm_stream_ss
SSE4.1
- DPPD / DPPS – 计算两参数的点结果。内部指令：_mm_dp_pd、_mm_dp_ps
- EXTRACTPS – 从参数中取出一个特定的32位浮点值。内部指令：_mm_extract_ps
- INSERTPS – 把一个32位整型插入到一个128位参数中，并把某些位置零。内部指令：_mm_insert_ps
- MOVNTDQA – 从特定内存位置加载128位数据。内部指令：_mm_stream_load_si128
- MPSADBW – 计算绝对差分的八个偏移总和。内部指令：_mm_mpsadbw_epu8
- PACKUSDW – 使用16位饱和度，把32位有符号整型转换为有符号16位整型。内部指令：_mm_packus_epi32
- PBLENDW / BLENDPD / BLENDPS / PBLENDVB / BLENDVPD / BLENDVPS – 把两个不同块大小的参数混合在一起。内部指令：_mm_blend_epi16、_mm_blend_pd、_mm_blend_ps、_mm_blendv_epi8、_mm_blendv_pd、_mm_blendv_ps
- PCMPEQQ －比较64位整型是否相等。内部指令：_mm_cmpeq_epi64
- PEXTRB / PEXTRW / PEXTRD / PEXTRQ －从输入的参数中取出一个整型。内部指令：_mm_extract_epi8、_mm_extract_epi16、_mm_extract_epi32、_mm_extract_epi64
- PHMINPOSUW －选择最小的16位无符号整型并确定它的下标。内部指令：_mm_minpos_epu16
- PINSRB / PINSRD / PINSRQ －把一个整型插入到一个128位参数中。内部指令：_mm_insert_epi8、_mm_insert_epi32、_mm_insert_epi64
- PMAXSB / PMAXSD －接受两个参数中的有符号整型，并选择其中的最大者。内部指令：_mm_max_epi8、_mm_max_epi32
- PMAXUW / PMAXUD －接受两个参数中的无符号整型，并选择其中的最大者。内部指令：_mm_max_epu16、_mm_max_epu32
- PMINSB / PMINSD －接受两个参数中的有符号整型，并选择其中的最小者。内部指令：_mm_min_epi8、_mm_min_epi32
- PMINUW / PMINUD －接受两个参数中的无符号整型，并选择其中的最小者。内部指令：_mm_min_epu16、_mm_min_epu32
- PMOVSXBW / PMOVSXBD / PMOVSXBQ / PMOVSXWD / PMOVSXWQ / PMOVSXDQ －把一有符号整型转换到更大的尺寸。内部指令：_mm_cvtepi8_epi16、_mm_cvtepi8_epi32、_mm_cvtepi8_epi64、_mm_cvtepi16_epi32、_mm_cvtepi16_epi64、_mm_cvtepi32_epi64
- PMOVZXBW / PMOVZXBD / PMOVZXBQ / PMOVZXWD / PMOVZXWQ / PMOVZXDQ －把一无符号整型转换到更大的尺寸。内部指令：_mm_cvtepu8_epi16、_mm_cvtepu8_epi32、_mm_cvtepu8_epi64、_mm_cvtepu16_epi32、_mm_cvtepu16_epi64、_mm_cvtepu32_epi64
- PMULDQ － 32位有符号整型相乘，并把结果存储为64位有符号整型。内部指令：_mm_mul_epi32
- PMULLUD － 32位有符号整型相乘。内部指令：_mm_mullo_epi32
- PTEST －按位计算两个128位参数，并基于CC标志寄存器的CF与ZF位返回值。内部指令：_mm_testc_si128、_mm_testnzc_si128、_mm_testz_si128
- ROUNDPD / ROUNDPS －取整浮点数值。内部指令：_mm_ceil_pd、_mm_ceil_ps、_mm_floor_pd、_mm_floor_ps、_mm_round_pd、_mm_round_ps
- ROUNDSD / ROUNDSS －结合两个参数，从其一取整到一个浮点数值。内部指令：_mm_ceil_sd、_mm_ceil_ss、_mm_floor_sd、_mm_floor_ss、_mm_round_sd、_mm_round_ss
SSE4.2
- CRC32 －计算参数的CRC-32C检验和。内部指令：_mm_crc32_u8、_mm_crc32_u16、_mm_crc32_u32、_mm_crc32_u64
- PCMPESTRI / PCMPESTRM －比较特定长度的两个参数。内部指令：_mm_cmpestra、_mm_cmpestrc、_mm_cmpestri、_mm_cmpestrm、_mm_cmpestro、_mm_cmpestrs、_mm_cmpestrz
- PCMPGTQ －比较两个参数。内部指令：_mm_cmpgt_epi64
- PCMPISTRI / PCMPISTRM －比较两个参数。内部指令：_mm_cmpistra、_mm_cmpistrc、_mm_cmpistri、_mm_cmpistrm、_mm_cmpistro、_mm_cmpistrs、_mm_cmpistrz
- POPCNT －统计位集中1的数量。内部指令：_mm_popcnt_u32、_mm_popcnt_u64、__popcnt16、__popcnt、__popcnt64
高级位操纵
- LZCNT －统计参数中零的数量。内部指令：__lzcnt16、 __lzcnt、__lzcnt64
- POPCNT －统计位集中1的数量。内部指令：_mm_popcnt_u32、_mm_popcnt_u64、__popcnt16、__popcnt、__popcnt64
其他新指令
- _InterlockedCompareExchange128 －对比两个参数。
- _mm_castpd_ps / _mm_castpd_si128 / _mm_castps_pd / _mm_castps_si128 / _mm_castsi128_pd / _mm_castsi128_ps －对32位浮点值（ps）、64位浮点值（pd）及32位整型值（si128）重新解释。
- _mm_cvtsd_f64 －从参数中取出最低的64位浮点值。
- _mm_cvtss_f32 －取出一个32位的浮点值。
- _rdtscp －生成RDTSCP。把TSC AUX[31:0]写到内存，并返回64位时间戳计数器结果。