Module core::arch::x861.27.0[][src]

This is supported on x86 only.
Expand description

x86 平台的平台特定的内联函数。

有关更多详细信息,请参见 module documentation

Structs

__m128bhExperimental

128 位宽的一组 8 个 u16 类型,特定于 x86

__m256bhExperimental

256 位宽的 16 种 u16 类型集,特定于 x86

__m512Experimental

512 位宽的十六种 f32 类型集,特定于 x86

__m512bhExperimental

512 位宽的 32 种 u16 类型集,特定于 x86

__m512dExperimental

八种 f64 类型的 512 位宽集,特定于 x86

__m512iExperimental

512 位宽的整数 vector 类型,特定于 x86

CpuidResult

cpuid 指令的结果。

__m128

四种 f32 类型的 128 位宽集,特定于 x86

__m128d

两种 f64 类型的 128 位宽集,特定于 x86

__m128i

128 位宽的整数 vector 类型,特定于 x86

__m256

256 位宽的八种 f32 类型的集合,特定于 x86

__m256d

256 位宽的四种 f64 类型的集合,特定于 x86

__m256i

256 位宽的整数 vector 类型,特定于 x86

Constants

_MM_CMPINT_EQExperimental

Equal

_MM_CMPINT_FALSEExperimental

False

_MM_CMPINT_LEExperimental

Less-than-or-equal

_MM_CMPINT_LTExperimental

Less-than

_MM_CMPINT_NEExperimental

Not-equal

_MM_CMPINT_NLEExperimental

不小于等于

_MM_CMPINT_NLTExperimental

不小于

_MM_CMPINT_TRUEExperimental

True

_MM_MANT_NORM_1_2Experimental

间隔 [1,2)

_MM_MANT_NORM_P5_1Experimental

间隔 [0.5,1)

_MM_MANT_NORM_P5_2Experimental

间隔 [0.5,2)

_MM_MANT_NORM_P75_1P5Experimental

间隔 [0.75,1.5)

_MM_MANT_SIGN_NANExperimental

如果 sign(SRC) =1,则 DEST=NaN

_MM_MANT_SIGN_SRCExperimental

sign = sign(SRC)

_MM_MANT_SIGN_ZEROExperimental

sign = 0

_MM_PERM_AAAAExperimental
_MM_PERM_AAABExperimental
_MM_PERM_AAACExperimental
_MM_PERM_AAADExperimental
_MM_PERM_AABAExperimental
_MM_PERM_AABBExperimental
_MM_PERM_AABCExperimental
_MM_PERM_AABDExperimental
_MM_PERM_AACAExperimental
_MM_PERM_AACBExperimental
_MM_PERM_AACCExperimental
_MM_PERM_AACDExperimental
_MM_PERM_AADAExperimental
_MM_PERM_AADBExperimental
_MM_PERM_AADCExperimental
_MM_PERM_AADDExperimental
_MM_PERM_ABAAExperimental
_MM_PERM_ABABExperimental
_MM_PERM_ABACExperimental
_MM_PERM_ABADExperimental
_MM_PERM_ABBAExperimental
_MM_PERM_ABBBExperimental
_MM_PERM_ABBCExperimental
_MM_PERM_ABBDExperimental
_MM_PERM_ABCAExperimental
_MM_PERM_ABCBExperimental
_MM_PERM_ABCCExperimental
_MM_PERM_ABCDExperimental
_MM_PERM_ABDAExperimental
_MM_PERM_ABDBExperimental
_MM_PERM_ABDCExperimental
_MM_PERM_ABDDExperimental
_MM_PERM_ACAAExperimental
_MM_PERM_ACABExperimental
_MM_PERM_ACACExperimental
_MM_PERM_ACADExperimental
_MM_PERM_ACBAExperimental
_MM_PERM_ACBBExperimental
_MM_PERM_ACBCExperimental
_MM_PERM_ACBDExperimental
_MM_PERM_ACCAExperimental
_MM_PERM_ACCBExperimental
_MM_PERM_ACCCExperimental
_MM_PERM_ACCDExperimental
_MM_PERM_ACDAExperimental
_MM_PERM_ACDBExperimental
_MM_PERM_ACDCExperimental
_MM_PERM_ACDDExperimental
_MM_PERM_ADAAExperimental
_MM_PERM_ADABExperimental
_MM_PERM_ADACExperimental
_MM_PERM_ADADExperimental
_MM_PERM_ADBAExperimental
_MM_PERM_ADBBExperimental
_MM_PERM_ADBCExperimental
_MM_PERM_ADBDExperimental
_MM_PERM_ADCAExperimental
_MM_PERM_ADCBExperimental
_MM_PERM_ADCCExperimental
_MM_PERM_ADCDExperimental
_MM_PERM_ADDAExperimental
_MM_PERM_ADDBExperimental
_MM_PERM_ADDCExperimental
_MM_PERM_ADDDExperimental
_MM_PERM_BAAAExperimental
_MM_PERM_BAABExperimental
_MM_PERM_BAACExperimental
_MM_PERM_BAADExperimental
_MM_PERM_BABAExperimental
_MM_PERM_BABBExperimental
_MM_PERM_BABCExperimental
_MM_PERM_BABDExperimental
_MM_PERM_BACAExperimental
_MM_PERM_BACBExperimental
_MM_PERM_BACCExperimental
_MM_PERM_BACDExperimental
_MM_PERM_BADAExperimental
_MM_PERM_BADBExperimental
_MM_PERM_BADCExperimental
_MM_PERM_BADDExperimental
_MM_PERM_BBAAExperimental
_MM_PERM_BBABExperimental
_MM_PERM_BBACExperimental
_MM_PERM_BBADExperimental
_MM_PERM_BBBAExperimental
_MM_PERM_BBBBExperimental
_MM_PERM_BBBCExperimental
_MM_PERM_BBBDExperimental
_MM_PERM_BBCAExperimental
_MM_PERM_BBCBExperimental
_MM_PERM_BBCCExperimental
_MM_PERM_BBCDExperimental
_MM_PERM_BBDAExperimental
_MM_PERM_BBDBExperimental
_MM_PERM_BBDCExperimental
_MM_PERM_BBDDExperimental
_MM_PERM_BCAAExperimental
_MM_PERM_BCABExperimental
_MM_PERM_BCACExperimental
_MM_PERM_BCADExperimental
_MM_PERM_BCBAExperimental
_MM_PERM_BCBBExperimental
_MM_PERM_BCBCExperimental
_MM_PERM_BCBDExperimental
_MM_PERM_BCCAExperimental
_MM_PERM_BCCBExperimental
_MM_PERM_BCCCExperimental
_MM_PERM_BCCDExperimental
_MM_PERM_BCDAExperimental
_MM_PERM_BCDBExperimental
_MM_PERM_BCDCExperimental
_MM_PERM_BCDDExperimental
_MM_PERM_BDAAExperimental
_MM_PERM_BDABExperimental
_MM_PERM_BDACExperimental
_MM_PERM_BDADExperimental
_MM_PERM_BDBAExperimental
_MM_PERM_BDBBExperimental
_MM_PERM_BDBCExperimental
_MM_PERM_BDBDExperimental
_MM_PERM_BDCAExperimental
_MM_PERM_BDCBExperimental
_MM_PERM_BDCCExperimental
_MM_PERM_BDCDExperimental
_MM_PERM_BDDAExperimental
_MM_PERM_BDDBExperimental
_MM_PERM_BDDCExperimental
_MM_PERM_BDDDExperimental
_MM_PERM_CAAAExperimental
_MM_PERM_CAABExperimental
_MM_PERM_CAACExperimental
_MM_PERM_CAADExperimental
_MM_PERM_CABAExperimental
_MM_PERM_CABBExperimental
_MM_PERM_CABCExperimental
_MM_PERM_CABDExperimental
_MM_PERM_CACAExperimental
_MM_PERM_CACBExperimental
_MM_PERM_CACCExperimental
_MM_PERM_CACDExperimental
_MM_PERM_CADAExperimental
_MM_PERM_CADBExperimental
_MM_PERM_CADCExperimental
_MM_PERM_CADDExperimental
_MM_PERM_CBAAExperimental
_MM_PERM_CBABExperimental
_MM_PERM_CBACExperimental
_MM_PERM_CBADExperimental
_MM_PERM_CBBAExperimental
_MM_PERM_CBBBExperimental
_MM_PERM_CBBCExperimental
_MM_PERM_CBBDExperimental
_MM_PERM_CBCAExperimental
_MM_PERM_CBCBExperimental
_MM_PERM_CBCCExperimental
_MM_PERM_CBCDExperimental
_MM_PERM_CBDAExperimental
_MM_PERM_CBDBExperimental
_MM_PERM_CBDCExperimental
_MM_PERM_CBDDExperimental
_MM_PERM_CCAAExperimental
_MM_PERM_CCABExperimental
_MM_PERM_CCACExperimental
_MM_PERM_CCADExperimental
_MM_PERM_CCBAExperimental
_MM_PERM_CCBBExperimental
_MM_PERM_CCBCExperimental
_MM_PERM_CCBDExperimental
_MM_PERM_CCCAExperimental
_MM_PERM_CCCBExperimental
_MM_PERM_CCCCExperimental
_MM_PERM_CCCDExperimental
_MM_PERM_CCDAExperimental
_MM_PERM_CCDBExperimental
_MM_PERM_CCDCExperimental
_MM_PERM_CCDDExperimental
_MM_PERM_CDAAExperimental
_MM_PERM_CDABExperimental
_MM_PERM_CDACExperimental
_MM_PERM_CDADExperimental
_MM_PERM_CDBAExperimental
_MM_PERM_CDBBExperimental
_MM_PERM_CDBCExperimental
_MM_PERM_CDBDExperimental
_MM_PERM_CDCAExperimental
_MM_PERM_CDCBExperimental
_MM_PERM_CDCCExperimental
_MM_PERM_CDCDExperimental
_MM_PERM_CDDAExperimental
_MM_PERM_CDDBExperimental
_MM_PERM_CDDCExperimental
_MM_PERM_CDDDExperimental
_MM_PERM_DAAAExperimental
_MM_PERM_DAABExperimental
_MM_PERM_DAACExperimental
_MM_PERM_DAADExperimental
_MM_PERM_DABAExperimental
_MM_PERM_DABBExperimental
_MM_PERM_DABCExperimental
_MM_PERM_DABDExperimental
_MM_PERM_DACAExperimental
_MM_PERM_DACBExperimental
_MM_PERM_DACCExperimental
_MM_PERM_DACDExperimental
_MM_PERM_DADAExperimental
_MM_PERM_DADBExperimental
_MM_PERM_DADCExperimental
_MM_PERM_DADDExperimental
_MM_PERM_DBAAExperimental
_MM_PERM_DBABExperimental
_MM_PERM_DBACExperimental
_MM_PERM_DBADExperimental
_MM_PERM_DBBAExperimental
_MM_PERM_DBBBExperimental
_MM_PERM_DBBCExperimental
_MM_PERM_DBBDExperimental
_MM_PERM_DBCAExperimental
_MM_PERM_DBCBExperimental
_MM_PERM_DBCCExperimental
_MM_PERM_DBCDExperimental
_MM_PERM_DBDAExperimental
_MM_PERM_DBDBExperimental
_MM_PERM_DBDCExperimental
_MM_PERM_DBDDExperimental
_MM_PERM_DCAAExperimental
_MM_PERM_DCABExperimental
_MM_PERM_DCACExperimental
_MM_PERM_DCADExperimental
_MM_PERM_DCBAExperimental
_MM_PERM_DCBBExperimental
_MM_PERM_DCBCExperimental
_MM_PERM_DCBDExperimental
_MM_PERM_DCCAExperimental
_MM_PERM_DCCBExperimental
_MM_PERM_DCCCExperimental
_MM_PERM_DCCDExperimental
_MM_PERM_DCDAExperimental
_MM_PERM_DCDBExperimental
_MM_PERM_DCDCExperimental
_MM_PERM_DCDDExperimental
_MM_PERM_DDAAExperimental
_MM_PERM_DDABExperimental
_MM_PERM_DDACExperimental
_MM_PERM_DDADExperimental
_MM_PERM_DDBAExperimental
_MM_PERM_DDBBExperimental
_MM_PERM_DDBCExperimental
_MM_PERM_DDBDExperimental
_MM_PERM_DDCAExperimental
_MM_PERM_DDCBExperimental
_MM_PERM_DDCCExperimental
_MM_PERM_DDCDExperimental
_MM_PERM_DDDAExperimental
_MM_PERM_DDDBExperimental
_MM_PERM_DDDCExperimental
_MM_PERM_DDDDExperimental
_XABORT_CAPACITYExperimental

事务终止,因为事务使用了过多的内存。

_XABORT_CONFLICTExperimental

由于与另一个线程发生内存冲突而导致事务终止。

_XABORT_DEBUGExperimental

事务由于调试陷阱而终止。

_XABORT_EXPLICITExperimental

使用 xabort 显式中止了事务。 传递给 xabort 的参数可用于 _xabort_code(status)

_XABORT_NESTEDExperimental

内部嵌套事务中的事务终止。

_XABORT_RETRYExperimental

事务重试是可能的。

_XBEGIN_STARTEDExperimental

事务成功开始。

_CMP_EQ_OQ

相等 (有序,无信号)

_CMP_EQ_OS

相等 (有序,发信号)

_CMP_EQ_UQ

相等 (无序,无信号)

_CMP_EQ_US

相等 (无序,发信号)

_CMP_FALSE_OQ

错误 (有序,无信号)

_CMP_FALSE_OS

错误 (有序,发信号)

_CMP_GE_OQ

大于或等于 (有序,无信号)

_CMP_GE_OS

大于或等于 (有序,发信号)

_CMP_GT_OQ

大于 (有序,无信号)

_CMP_GT_OS

大于 (有序,发信号)

_CMP_LE_OQ

小于或等于 (有序,无信号)

_CMP_LE_OS

小于或等于 (有序,发信号)

_CMP_LT_OQ

小于 (有序,无信号)

_CMP_LT_OS

小于 (有序,发信号)

_CMP_NEQ_OQ

不相等 (有序,无信号)

_CMP_NEQ_OS

不相等 (有序,发信号)

_CMP_NEQ_UQ

不相等 (无序,无信号)

_CMP_NEQ_US

不相等 (无序,发信号)

_CMP_NGE_UQ

不大于等于 (无序,无信号)

_CMP_NGE_US

不大于等于 (无序,发信号)

_CMP_NGT_UQ

不大于 (无序,无信号)

_CMP_NGT_US

不大于 (无序,发信号)

_CMP_NLE_UQ

不小于等于 (无序,无信号)

_CMP_NLE_US

不小于等于 (无序,发信号)

_CMP_NLT_UQ

不少于 (无序,无信号)

_CMP_NLT_US

不少于 (无序,发信号)

_CMP_ORD_Q

订购 (无信号)

_CMP_ORD_S

订购 (发信号)

_CMP_TRUE_UQ

真 (无序,无信号)

_CMP_TRUE_US

真 (无序,发信号)

_CMP_UNORD_Q

无序 (无信号)

_CMP_UNORD_S

无序 (发信号)

_MM_EXCEPT_DENORM

请参见 _mm_setcsr

_MM_EXCEPT_DIV_ZERO

请参见 _mm_setcsr

_MM_EXCEPT_INEXACT

请参见 _mm_setcsr

_MM_EXCEPT_INVALID

请参见 _mm_setcsr

_MM_EXCEPT_MASK

请参见 _MM_GET_EXCEPTION_STATE

_MM_EXCEPT_OVERFLOW

请参见 _mm_setcsr

_MM_EXCEPT_UNDERFLOW

请参见 _mm_setcsr

_MM_FLUSH_ZERO_MASK

请参见 _MM_GET_FLUSH_ZERO_MODE

_MM_FLUSH_ZERO_OFF

请参见 _mm_setcsr

_MM_FLUSH_ZERO_ON

请参见 _mm_setcsr

_MM_FROUND_CEIL

四舍五入,不抑制异常

_MM_FROUND_CUR_DIRECTION

使用 MXCSR.RC; 见 vendor::_MM_SET_ROUNDING_MODE

_MM_FROUND_FLOOR

四舍五入,不抑制异常

_MM_FROUND_NEARBYINT

使用 MXCSR.RC 并抑制异常; 见 vendor::_MM_SET_ROUNDING_MODE

_MM_FROUND_NINT

四舍五入到最接近,不排除异常

_MM_FROUND_NO_EXC

抑制异常

_MM_FROUND_RAISE_EXC

不要抑制异常

_MM_FROUND_RINT

使用 MXCSR.RC 且不抑制异常; see vendor::_MM_SET_ROUNDING_MODE

_MM_FROUND_TO_NEAREST_INT

四舍五入到最接近的

_MM_FROUND_TO_NEG_INF

四舍五入

_MM_FROUND_TO_POS_INF

围捕

_MM_FROUND_TO_ZERO

truncate

_MM_FROUND_TRUNC

截断并且不抑制异常

_MM_HINT_ET0

请参见 _mm_prefetch

_MM_HINT_ET1

请参见 _mm_prefetch

_MM_HINT_NTA

请参见 _mm_prefetch

_MM_HINT_T0

请参见 _mm_prefetch

_MM_HINT_T1

请参见 _mm_prefetch

_MM_HINT_T2

请参见 _mm_prefetch

_MM_MASK_DENORM

请参见 _mm_setcsr

_MM_MASK_DIV_ZERO

请参见 _mm_setcsr

_MM_MASK_INEXACT

请参见 _mm_setcsr

_MM_MASK_INVALID

请参见 _mm_setcsr

_MM_MASK_MASK

请参见 _MM_GET_EXCEPTION_MASK

_MM_MASK_OVERFLOW

请参见 _mm_setcsr

_MM_MASK_UNDERFLOW

请参见 _mm_setcsr

_MM_ROUND_DOWN

请参见 _mm_setcsr

_MM_ROUND_MASK

请参见 _MM_GET_ROUNDING_MODE

_MM_ROUND_NEAREST

请参见 _mm_setcsr

_MM_ROUND_TOWARD_ZERO

请参见 _mm_setcsr

_MM_ROUND_UP

请参见 _mm_setcsr

_SIDD_BIT_MASK

仅掩码: 返回位掩码

_SIDD_CMP_EQUAL_ANY

对于 a 中的每个字符,查找它是否在 b(默认)

_SIDD_CMP_EQUAL_EACH

ab 定义的字符串相等

_SIDD_CMP_EQUAL_ORDERED

在目标中搜索定义的子字符串

_SIDD_CMP_RANGES

对于 a 中的每个字符,确定是否 b[0] <= c <= b[1] or b[1] <= c <= b[2]...

_SIDD_LEAST_SIGNIFICANT

仅索引: 返回最低有效位 (默认)

_SIDD_MASKED_NEGATIVE_POLARITY

仅在字符串结尾之前取反结果

_SIDD_MASKED_POSITIVE_POLARITY

不要在字符串结尾之前取反结果

_SIDD_MOST_SIGNIFICANT

仅索引: 返回最高有效位

_SIDD_NEGATIVE_POLARITY

取反结果

_SIDD_POSITIVE_POLARITY

不取消结果 (默认)

_SIDD_SBYTE_OPS

字符串包含带符号的 8 位字符

_SIDD_SWORD_OPS

字符串包含无符号的 16 位字符

_SIDD_UBYTE_OPS

字符串包含无符号的 8 位字符 (默认)

_SIDD_UNIT_MASK

仅掩码: 返回字节掩码

_SIDD_UWORD_OPS

字符串包含无符号的 16 位字符

_XCR_XFEATURE_ENABLED_MASK

XFEATURE_ENABLED_MASK 对于 XCR

Functions

_MM_SHUFFLEExperimental

一个实用程序函数,用于创建与 Intel 重排和置换内联函数一起使用的掩码。

_kadd_mask32Experimentalavx512bw

在 a 和 b 中添加 32 位掩码,并将结果存储在 k 中。

_kadd_mask64Experimentalavx512bw

在 a 和 b 中添加 64 位掩码,并将结果存储在 k 中。

_kand_mask16Experimentalavx512f

计算 16 位掩码 a 和 b 的按位与,并将结果存储在 k 中。

_kand_mask32Experimentalavx512bw

计算 32 位掩码 a 和 b 的按位与,并将结果存储在 k 中。

_kand_mask64Experimentalavx512bw

计算 64 位掩码 a 和 b 的按位与,并将结果存储在 k 中。

_kandn_mask16Experimentalavx512f

计算 16 位掩码 a 的按位非,然后与 b 计算 AND,并将结果存储在 k 中。

_kandn_mask32Experimentalavx512bw

计算 32 位掩码 a 的按位非,然后与 b 计算 AND,并将结果存储在 k 中。

_kandn_mask64Experimentalavx512bw

计算 64 位掩码 a 的按位非,然后与 b 进行与运算,并将结果存储在 k 中。

_knot_mask16Experimentalavx512f

计算 16 位掩码 a 的按位非,并将结果存储在 k 中。

_knot_mask32Experimentalavx512bw

计算 32 位掩码 a 的按位非,并将结果存储在 k 中。

_knot_mask64Experimentalavx512bw

计算 64 位掩码 a 的按位非,并将结果存储在 k 中。

_kor_mask16Experimentalavx512f

计算 16 位掩码 a 和 b 的按位或,并将结果存储在 k 中。

_kor_mask32Experimentalavx512bw

计算 32 位掩码 a 和 b 的按位或,并将结果存储在 k 中。

_kor_mask64Experimentalavx512bw

计算 64 位掩码 a 和 b 的按位或,并将结果存储在 k 中。

_kxnor_mask16Experimentalavx512f

计算 16 位掩码 a 和 b 的按位 XNOR,并将结果存储在 k 中。

_kxnor_mask32Experimentalavx512bw

计算 32 位掩码 a 和 b 的按位 XNOR,并将结果存储在 k 中。

_kxnor_mask64Experimentalavx512bw

计算 64 位掩码 a 和 b 的按位 XNOR,并将结果存储在 k 中。

_kxor_mask16Experimentalavx512f

计算 16 位掩码 a 和 b 的按位 XOR,并将结果存储在 k 中。

_kxor_mask32Experimentalavx512bw

计算 32 位掩码 a 和 b 的按位 XOR,并将结果存储在 k 中。

_kxor_mask64Experimentalavx512bw

计算 64 位掩码 a 和 b 的按位 XOR,并将结果存储在 k 中。

_load_mask32Experimentalavx512bw

将内存中的 32 位掩码加载到 k 中。

_load_mask64Experimentalavx512bw

将内存中的 64 位掩码加载到 k 中。

_mm256_abs_epi64Experimentalavx512f,avx512vl

计算 a 中包装的带符号的 64 位整数的绝对值,并将无符号的结果存储在 dst 中。

_mm256_aesdec_epi128Experimentalavx512vaes,avx512vl

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行一轮 AES 解密流程。

_mm256_aesdeclast_epi128Experimentalavx512vaes,avx512vl

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行最后一轮 AES 解密流程。

_mm256_aesenc_epi128Experimentalavx512vaes,avx512vl

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行一轮 AES 加密流程。

_mm256_aesenclast_epi128Experimentalavx512vaes,avx512vl

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行最后一轮 AES 加密流程。

_mm256_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成一个 64 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并将低 32 字节 (8 个元素) 存储在 dst 中。

_mm256_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成 64 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并将低 32 字节 (4 个元素) 存储在 dst 中。

_mm256_bitshuffle_epi64_maskExperimentalavx512bitalg,avx512vl

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm256_broadcast_f32x4Experimentalavx512f,avx512vl

从 a 广播 4 个包装的单精度 (32-bit) 浮点元素到 dst 的所有元素。

_mm256_broadcast_i32x4Experimentalavx512f,avx512vl

将 4 个包装的 32 位整数从 a 广播到 dst 的所有元素。

_mm256_broadcastmb_epi64Experimentalavx512cd,avx512vl

将输入掩码 k 的低 8 位广播到 dst 的所有 64 位元素。

_mm256_broadcastmw_epi32Experimentalavx512cd,avx512vl

将输入掩码 k 的低 16 位广播到 dst 的所有 32 位元素。

_mm256_clmulepi64_epi128Experimentalavx512vpclmulqdq,avx512vl

在 2 个 128 位通道中的每个通道中,在有限域 GF(2^k) 上执行两个 64 位多项式的无进位乘法。

_mm256_cmp_epi8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装带符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epi16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epi32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装有符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epi64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epu8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epu16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epu32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_epu64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 64 位整数,并将结果存储在掩码 vector k 中。

_mm256_cmp_pd_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm256_cmp_ps_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpeq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpge_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmpgt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm256_cmple_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm256_cmple_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm256_cmple_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm256_cmple_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm256_cmple_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数以得出小于或等于的结果,并将结果存储在掩码 vector k 中。

_mm256_cmple_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm256_cmple_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm256_cmple_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm256_cmplt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数小于零,并将结果存储在掩码 vector k 中。

_mm256_cmplt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm256_cmplt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm256_cmplt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数小于零,并将结果存储在掩码 vector k 中。

_mm256_cmplt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数以得到小于,并将结果存储在掩码 vector k 中。

_mm256_cmplt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装后的无符号 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm256_cmplt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm256_cmplt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_cmpneq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm256_conflict_epi32Experimentalavx512cd,avx512vl

测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_conflict_epi64Experimentalavx512cd,avx512vl

测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_cvtepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm256_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm256_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm256_cvtepi64_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm256_cvtepi64_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm256_cvtepi64_epi32Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 32 位整数,并将结果存储在 dst 中。

_mm256_cvtepu32_pdExperimentalavx512f,avx512vl

将 A 中的包装的无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm256_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 256 位 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并将结果存入 a

_mm256_cvtneps_pbhExperimentalavx512bf16,avx512vl

将包装在 a 中的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并将结果存储在 dst 中。 Intel’s documentation

_mm256_cvtpd_epu32Experimentalavx512f,avx512vl

将包装的双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm256_cvtph_psExperimentalf16c

将 128 位 vector a 中的 8 x 16 位半精度浮点值转换为存储在 256 位宽 vector 中的 8 x 32 位浮点值。

_mm256_cvtps_epu32Experimentalavx512f,avx512vl

将包装的单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm256_cvtps_phExperimentalf16c

将 256 位 vector a 中的 8 x 32 位浮点值转换为 8 x 16 位半精度浮点值存储在 128 位宽的 vector 中。

_mm256_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 A 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm256_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm256_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm256_cvtsepi64_epi8Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 8 位整数,并将结果存储在 dst 中。

_mm256_cvtsepi64_epi16Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并将结果存储在 dst 中。

_mm256_cvtsepi64_epi32Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并将结果存储在 dst 中。

_mm256_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm256_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装无符号 32 位整数转换为具有无符号饱和度的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm256_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 A 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并将结果存储在 dst 中。

_mm256_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并将 16 位结果存储在 dst 中。对于每个 64 位通道,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中通道的低 8 位四元组,而后两个 SAD 使用 a 中通道的较高 8 位四元组。根据 imm8 中的控件,从 128 位通道中选择 b 中的四元组,并且每个 64 位通道中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm256_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素相加,并将结果存储在 dst 中。

_mm256_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm256_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用有符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm256_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm256_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm256_extractf32x4_psExperimentalavx512f,avx512vl

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并将结果存储在 dst 中。

_mm256_extracti32x4_epi32Experimentalavx512f,avx512vl

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM1 选中,结果存入 dst。

_mm256_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装的 64 位整数修复 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm256_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm256_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并将结果存储在 dst 中。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm256_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并将结果存储在 dst 中。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm256_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数规格化,并将结果存储在 dst 中。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm256_getmant_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数标准化,并将结果存储在 dst 中。 此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。 尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值: _MM_MANT_NORM_1_2 // interval [1, 2) _MM_MANT_NORM_p5_2 // interval [0.5, 2) _MM_MANT_NORM_p5_1 // interval [0.5, 1) _MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5) The sign is determined by sc which can take the following values:

_mm256_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm256_insertf32x4Experimentalavx512f,avx512vl

将 a 复制到 dst,然后在 x00X 指定的位置将 d 的 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成) 插入 dst。

_mm256_inserti32x4Experimentalavx512f,avx512vl

将 a 复制到 dst,然后在 x00X 指定的位置将 d 的 128 位 (由 4 个包装的 32 位整数组成) 插入 dst。

_mm256_load_epi32Experimentalavx512f,avx512vl

将 256 位 (由 8 个包装的 32 位整数组成) 从内存加载到 dst 中。mem_addr 必须在 32 字节边界上对齐,否则可能会生成一般保护异常。

_mm256_load_epi64Experimentalavx512f,avx512vl

将 256 位 (由 4 个包装的 64 位整数组成) 从内存加载到 dst 中。mem_addr 必须在 32 字节边界上对齐,否则可能会生成一般保护异常。

_mm256_loadu_epi8Experimentalavx512bw,avx512vl

将 256 位 (由 32 个包装的 8 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm256_loadu_epi16Experimentalavx512bw,avx512vl

将 256 位 (由 16 个包装的 16 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm256_loadu_epi32Experimentalavx512f,avx512vl

将 256 位 (由 8 个包装的 32 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm256_loadu_epi64Experimentalavx512f,avx512vl

将 256 位 (由 4 个包装的 64 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm256_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm256_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm256_madd52hi_epu64Experimentalavx512ifma,avx512vl

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的高 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm256_madd52lo_epu64Experimentalavx512ifma,avx512vl

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的低 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm256_mask2_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨通道打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm256_mask2_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm256_mask2_permutex2var_epi32Experimentalavx512f,avx512vl

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm256_mask2_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm256_mask2_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 idx 复制元素)

_mm256_mask2_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的对应选择器和索引在 a 和 b 中的通道中对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm256_mask3_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 c 复制元素)。

_mm256_mask3_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm256_mask3_fmaddsub_pdExperimentalavx512f,avx512vl

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm256_mask3_fmaddsub_psExperimentalavx512f,avx512vl

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm256_mask3_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm256_mask3_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm256_mask3_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm256_mask3_fmsubadd_psExperimentalavx512f,avx512vl

在 a 和 b 中乘以包装的单精度 (32-bit) 浮点元素,或者在中间结果中减去并在 c from/to 中包装的元素相乘,然后使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm256_mask3_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 c 复制元素)。

_mm256_mask3_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 c 复制)。

_mm256_mask3_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 c 复制元素)。

_mm256_mask3_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 c 复制元素)。

_mm256_mask_abs_epi8Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 8 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_abs_epi16Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 16 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_abs_epi32Experimentalavx512f,avx512vl

计算 a 中包装的有符号 32 位整数的绝对值,并使用 writemask k 将无符号结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_abs_epi64Experimentalavx512f,avx512vl

计算 a 中包装的带符号的 64 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_add_epi8Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_add_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_add_epi32Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_add_epi64Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_add_pdExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_add_psExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_adds_epi8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_adds_epi16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_adds_epu8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_adds_epu16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_alignr_epi8Experimentalavx512bw,avx512vl

将 a 和 b 中的 16 字节块对连接成 32 字节的临时结果,将结果右移 imm8 字节,并使用写掩码 k 将低 16 个字节存储在 dst 中 (当相应的掩码位为 1 时,元素从 src 复制没有设置)。

_mm256_mask_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成 64 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并使用 writemask k 将低 32 字节 (8 个元素) 存储在 dst 中 (当相应的掩码位为没有设置)。

_mm256_mask_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成 64 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并使用 writemask k 将低 32 字节 (4 个元素) 存储在 dst 中 (当相应的掩码位为没有设置)。

_mm256_mask_and_epi32Experimentalavx512f,avx512vl

在包装的 a 和 b 的 32 位整数元素之间执行逐个元素的按位 AND,使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_and_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 src 复制元素)。

_mm256_mask_andnot_epi32Experimentalavx512f,avx512vl

计算 a 中包装的 32 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_andnot_epi64Experimentalavx512f,avx512vl

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_avg_epu8Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 8 位整数平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_avg_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_bitshuffle_epi64_maskExperimentalavx512bitalg,avx512vl

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm256_mask_blend_epi8Experimentalavx512bw,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 8 位整数,并将结果存储在 dst 中。

_mm256_mask_blend_epi16Experimentalavx512bw,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装的 16 位整数,并将结果存储在 dst 中。

_mm256_mask_blend_epi32Experimentalavx512f,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 32 位整数,并将结果存储在 dst 中。

_mm256_mask_blend_epi64Experimentalavx512f,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 64 位整数,并将结果存储在 dst 中。

_mm256_mask_blend_pdExperimentalavx512f,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装后的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm256_mask_blend_psExperimentalavx512f,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm256_mask_broadcast_f32x4Experimentalavx512f,avx512vl

使用写掩码 k 将 4 个包装的单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcast_i32x4Experimentalavx512f,avx512vl

使用写掩码 k 将 a 的 4 个包装的 32 位整数广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcastb_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将 d 的低包装的 8 位整数广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcastd_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_broadcastq_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_broadcastsd_pdExperimentalavx512f,avx512vl

使用写掩码 k 将低双精度 (64-bit) 浮点型元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_broadcastss_psExperimentalavx512f,avx512vl

使用写掩码 k 将低单精度 (32-bit) 浮点型元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将元素从 src 复制)。

_mm256_mask_broadcastw_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_cmp_epi8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmp_epi16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmp_epi32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmp_epi64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmp_epu8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmp_epu16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmp_epu32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmp_epu64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmp_pd_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmp_ps_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmpeq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpeq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否相等,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpeq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmpeq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpeq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpeq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpeq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpeq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpge_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpge_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpge_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否等于或大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpge_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpge_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpge_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpge_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpge_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpgt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpgt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpgt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果使用零掩码 k1 存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpgt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpgt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpgt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpgt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpgt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmple_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmple_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmple_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmple_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmple_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmple_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmple_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmple_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmplt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmplt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmplt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm256_mask_cmplt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmplt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmplt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数以得到小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmplt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmplt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpneq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_mask_cmpneq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpneq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpneq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_mask_cmpneq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpneq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpneq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_cmpneq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm256_mask_compress_epi8Experimentalavx512vbmi2,avx512vl

将 a 中的活动 8 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm256_mask_compress_epi16Experimentalavx512vbmi2,avx512vl

将 a 中的活动 16 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm256_mask_compress_epi32Experimentalavx512f,avx512vl

将活动的 32 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm256_mask_compress_epi64Experimentalavx512f,avx512vl

将活动的 64 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm256_mask_compress_pdExperimentalavx512f,avx512vl

将活动的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位在写掩码 k 中设置) 到 dst,并通过 src 中的其余元素。

_mm256_mask_compress_psExperimentalavx512f,avx512vl

将活动的单精度 (32-bit) 浮点元素连续存储在 dst 中 (将其各自的位设置在写掩码 k 中的那些元素中) 存储到 dst,并通过 src 中的其余元素。

_mm256_mask_conflict_epi32Experimentalavx512cd,avx512vl

使用写掩码 k (在未设置相应的掩码位时从 src 复制元素),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_mask_conflict_epi64Experimentalavx512cd,avx512vl

使用写掩码 k 测试 a 的每个 64 位元素是否与所有其他元素相等 (更接近最低有效位) (当未设置相应的掩码位时,从 src 复制元素)。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_mask_cvt_roundps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一: (_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_mask_cvtepi8_epi16Experimentalavx512bw,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi8_epi32Experimentalavx512f,avx512vl

符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi8_epi64Experimentalavx512f,avx512vl

将 a 的低 4 字节中的 8 位整数符号扩展为包装的 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_cvtepi16_epi8Experimentalavx512bw,avx512vl

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi16_epi32Experimentalavx512f,avx512vl

符号将包装后的 16 位整数从 a 扩展为包装后的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi16_epi64Experimentalavx512f,avx512vl

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi16_storeu_epi8Experimentalavx512bw,avx512vl

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi32_epi64Experimentalavx512f,avx512vl

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi32_pdExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvtepi32_psExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvtepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装的 32 位整数在 a 中转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtepi32_storeu_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 32 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带有截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepi64_storeu_epi8Experimentalavx512f,avx512vl

将 a 中包装的 64 位整数转换为包装的 8 位整数并截断,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

_mm256_mask_cvtepi64_storeu_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtepi64_storeu_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtepu8_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepu8_epi32Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 8 字节到包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm256_mask_cvtepu8_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 4 字节到包装的 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm256_mask_cvtepu16_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepu16_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 16 位整数 a 的低 8 字节到包装的 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_cvtepu32_epi64Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtepu32_pdExperimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 writemask k 将结果存储在单个 vector dst 中 (当相应的掩码位为没有设置)。

_mm256_mask_cvtneps_pbhExperimentalavx512bf16,avx512vl

将包装在 a 中的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm256_mask_cvtpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvtpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvtpd_psExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvtph_psExperimentalavx512f,avx512vl

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvtps_epi32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvtps_epu32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvtps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_mask_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装带符号的 16 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtsepi16_storeu_epi8Experimentalavx512bw,avx512vl

将包装在 a 中的有符号 16 位整数转换为有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtsepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtsepi32_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtsepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtsepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtsepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtsepi64_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtsepi64_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtsepi64_storeu_epi32Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvttpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvttps_epi32Experimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtusepi16_storeu_epi8Experimentalavx512bw,avx512vl

将包装在 a 中的无符号 16 位整数转换为具有无符号饱和的包装的无符号 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtusepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtusepi32_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的无符号 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_cvtusepi64_storeu_epi8Experimentalavx512f,avx512vl

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

_mm256_mask_cvtusepi64_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的无符号 64 位整数转换为具有无符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_cvtusepi64_storeu_epi32Experimentalavx512f,avx512vl

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm256_mask_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中的无符号 8 位整数与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并使用写掩码 k 将 16 位结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。对于每个 64 位通道,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中通道的低 8 位四元组,而后两个 SAD 使用 a 中通道的较高 8 位四元组。根据 imm8 中的控件,从 128 位通道中选择 b 中的四元组,并且每个 64 位通道中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm256_mask_div_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_div_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间的单精度 (32-bit) 浮点元素与 src 中的元素相加,并使用 writemask k 将结果存储在 dst 中 (当对应的元素从 src 复制时掩码位未设置)。

_mm256_mask_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (未设置相应掩码位时从 src 复制元素)。

_mm256_mask_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm256_mask_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm256_mask_expand_epi8Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_expand_epi16Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_expand_epi32Experimentalavx512f,avx512vl

从 a 加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_expand_epi64Experimentalavx512f,avx512vl

从 a 加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_expand_pdExperimentalavx512f,avx512vl

从 a 加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_expand_psExperimentalavx512f,avx512vl

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm256_mask_extractf32x4_psExperimentalavx512f,avx512vl

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 src 复制元素)。

_mm256_mask_extracti32x4_epi32Experimentalavx512f,avx512vl

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM1 选中,用 writemask k 将结果存入 dst 中 (未设置相应掩码位时从 src 复制元素)。

_mm256_mask_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm256_mask_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm256_mask_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm256_mask_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 a 复制元素)。

_mm256_mask_fmaddsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 中复制元素放)。

_mm256_mask_fmaddsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位则从 a 复制元素放)。

_mm256_mask_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 a 复制元素)。

_mm256_mask_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm256_mask_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的掩码位时,元素将从 a 复制放)。

_mm256_mask_fmsubadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 复制元素放)。

_mm256_mask_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm256_mask_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm256_mask_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm256_mask_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm256_mask_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当相应的 mask 时,元素从 src 复制位未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm256_mask_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当相应的 mask 时,元素从 src 复制位未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm256_mask_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm256_mask_getmant_psExperimentalavx512f,avx512vl

标准化 a 中包装的单精度 (32-bit) 浮点元素的尾数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm256_mask_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_mask_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_mask_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm256_mask_insertf32x4Experimentalavx512f,avx512vl

将 a 复制到 tmp,然后在 x00X 指定的位置将 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成) 插入 tmp。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_inserti32x4Experimentalavx512f,avx512vl

将 a 复制到 tmp,然后在 imm8 指定的位置,将 b 中的 128 位 (由 4 个包装的 32 位整数组成) 插入 tmp。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_madd_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 writemask k 将结果打包到 dst (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_maddubs_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平相加相邻的中间带符号的 16 位整数对,并使用写掩码 k 将饱和结果包装到 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_max_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_max_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_max_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_max_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_max_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_max_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_max_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_max_psExperimentalavx512f,avx512vl

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_min_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_min_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_min_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_min_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_min_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_min_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_min_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_min_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_min_psExperimentalavx512f,avx512vl

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_mov_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将包装的 8 位整数从 a 移到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 将包装的 16 位整数从 a 移到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将包装的 32 位整数从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将包装的 64 位整数从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_pdExperimentalavx512f,avx512vl

使用写掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_mov_psExperimentalavx512f,avx512vl

使用写掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm256_mask_movedup_pdExperimentalavx512f,avx512vl

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_movehdup_psExperimentalavx512f,avx512vl

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_moveldup_psExperimentalavx512f,avx512vl

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_mul_epi32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低符号 32 位整数相乘,并使用写掩码 k 将有符号的 64 位结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_mul_epu32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用写掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_mul_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_mul_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_mulhi_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的带符号的 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_mulhi_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_mulhrs_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 writemask k 将位 [16:1] 存储到 dst (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_mullo_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用写掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_mullo_epi32Experimentalavx512f,avx512vl

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用写掩码 k 将中间整数的低 32 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 writemask k (元素当相应的屏蔽位未设置时,从 src 复制)。

_mm256_mask_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_packs_epi16Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_packs_epi32Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_packus_epi16Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_packus_epi32Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_permute_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道内对双精度 (64-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_permute_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_permutevar_pdExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位通道内将 a 的双精度 (64-bit) 浮点元素进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_permutevar_psExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位通道内将 a 的单精度 (32-bit) 浮点元素打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨通道打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm256_mask_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm256_mask_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm256_mask_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm256_mask_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm256_mask_permutex2var_psExperimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 a 和 b 中的通道上对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm256_mask_permutex_epi64Experimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位通道内将 64 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_permutex_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位通道内对双精度 (64-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引在跨通道的 a 中打乱 8 位整数,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨通道中对 16 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_permutexvar_epi32Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨通道中对 32 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_permutexvar_epi64Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨通道中随机排列 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_permutexvar_pdExperimentalavx512f,avx512vl

使用 idx 中的相应索引对跨通道中的双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_permutexvar_psExperimentalavx512f,avx512vl

使用 idx 中的相应索引对跨通道中的单精度 (32-bit) 浮点元素进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_mask_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_mask_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_mask_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm256_mask_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。该近似值的最大相对误差小于 2^-14。

_mm256_mask_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。该近似值的最大相对误差小于 2^-14。

_mm256_mask_rol_epi32Experimentalavx512f,avx512vl

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_rol_epi64Experimentalavx512f,avx512vl

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 对应元素 b 中指定的位数,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm256_mask_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的对应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm256_mask_ror_epi32Experimentalavx512f,avx512vl

将 X 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_ror_epi64Experimentalavx512f,avx512vl

将 X 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的对应元素中指定的位数,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm256_mask_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm256_mask_roundscale_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_mask_roundscale_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_mask_rsqrt14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm256_mask_rsqrt14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm256_mask_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_set1_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_set1_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 向 dst 的所有元素广播 16 位整数 a (当未设置相应的掩码位时,从 src 复制元素)。

_mm256_mask_set1_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_set1_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 writemask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 writemask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 writemask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm256_mask_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm256_mask_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 复制)。

_mm256_mask_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 writemask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 writemask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm256_mask_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 writemask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 src` 复制)。

_mm256_mask_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm256_mask_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm256_mask_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm256_mask_shuffle_epi8Experimentalavx512bw,avx512vl

使用 b 中相应的 8 位元素中的控件在 128 位通道内对 a 中的 8 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_shuffle_epi32Experimentalavx512f,avx512vl

使用 imm8 中的控件将 128 位通道中的 32 位整数随机排列,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_shuffle_f32x4Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个单精度 (32-bit) 浮点元素组成) 混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_shuffle_f64x2Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成) 混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_shuffle_i32x4Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成) 重排,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_shuffle_i64x2Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成) 进行混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm256_mask_shuffle_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件对 128 位通道中的双精度 (64-bit) 浮点元素进行混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_shuffle_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_shufflehi_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位通道的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的高 64 位中,将 128 位通道的低 64 位从 a 复制到 dst,使用写掩码 k (当相应的掩码位不存在时,元素从 src 复制放)。

_mm256_mask_shufflelo_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位通道的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的低 64 位中,并使用写掩码 k 将 128 位通道的高 64 位从 a 复制到 dst (当未使用相应的掩码位时,元素从 src 复制) 放)。

_mm256_mask_sll_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数左移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sll_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sll_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_slli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_slli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_slli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数向左移动 imm8,同时向零移动,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sllv_epi32Experimentalavx512f,avx512vl

将填充的 32 位整数向左移动计数中相应元素指定的数量,同时将其移位为零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sllv_epi64Experimentalavx512f,avx512vl

将填充的 64 位整数向左移动 count 中相应元素指定的数量,同时将其移位为零,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm256_mask_sqrt_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sqrt_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sra_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数右移,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sra_epi32Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srai_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srai_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 count 中相应元素指定的数量,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srav_epi32Experimentalavx512f,avx512vl

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srav_epi64Experimentalavx512f,avx512vl

在移入符号位的同时,将包装的 64 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srl_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srl_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srl_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srlv_epi32Experimentalavx512f,avx512vl

向右移动包装的 32 位整数整数 (由 count 中相应元素指定的数量),同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_srlv_epi64Experimentalavx512f,avx512vl

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sub_epi8Experimentalavx512bw,avx512vl

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sub_epi16Experimentalavx512bw,avx512vl

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sub_epi32Experimentalavx512f,avx512vl

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sub_epi64Experimentalavx512f,avx512vl

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sub_pdExperimentalavx512f,avx512vl

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_sub_psExperimentalavx512f,avx512vl

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_subs_epi8Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 8 位整数减去 b 中的包装 8 位有符号整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_subs_epi16Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_subs_epu8Experimentalavx512bw,avx512vl

使用 a 饱和度将 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_subs_epu16Experimentalavx512bw,avx512vl

使用 a 饱和度从 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm256_mask_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 32 位整数中的每一位,使用 src、a 和 b 中的相应位形成 imm8 的 3 位索引,并使用 writemask 将 imm8 中该位的值写入 dst 中的相应位 k 在 32 位粒度 (当相应的掩码位未设置时,从 src 复制 32 位元素)。

_mm256_mask_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 64 位整数中的每一位,src、a 和 b 中的相应位用于形成 imm8 的 3 位索引,并使用 writemask 将 imm8 中该位的值写入 dst 中的相应位 k 在 64 位粒度 (当相应的掩码位未设置时,从 src 复制 64 位元素)。

_mm256_mask_test_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_test_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm256_mask_test_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm256_mask_test_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_testn_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_testn_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm256_mask_testn_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm256_mask_testn_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm256_mask_unpackhi_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm256_mask_unpackhi_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm256_mask_unpackhi_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm256_mask_unpackhi_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_unpackhi_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm256_mask_unpackhi_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm256_mask_unpacklo_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm256_mask_unpacklo_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm256_mask_unpacklo_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm256_mask_unpacklo_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_unpacklo_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包并交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm256_mask_unpacklo_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包并交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm256_mask_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_mask_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm256_maskz_abs_epi8Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 8 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_abs_epi16Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 16 位整数的绝对值,并使用零掩码 k (将未设置相应掩码位的元素清零) 将无符号结果存储在 dst 中。

_mm256_maskz_abs_epi32Experimentalavx512f,avx512vl

计算 a 中包装的有符号 32 位整数的绝对值,并使用 zeromask k 将无符号结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_abs_epi64Experimentalavx512f,avx512vl

计算 a 中包装的带符号的 64 位整数的绝对值,并使用零掩码 k (将未设置相应掩码位的元素清零) 将无符号结果存储在 dst 中。

_mm256_maskz_add_epi8Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_epi64Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_pdExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_add_psExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_adds_epi8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_adds_epi16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_adds_epu8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_adds_epu16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_alignr_epi8Experimentalavx512bw,avx512vl

将 a 和 b 中的 16 字节块对连接成一个 32 字节的临时结果,将结果右移 imm8 字节,并使用零掩码 k 将低 16 字节存储在 dst 中 (当未使用相应的掩码位时元素清零) 放)。

_mm256_maskz_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成一个 64 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并使用 zeromask k 将低 32 字节 (8 个元素) 存储在 dst 中 (当相应的掩码位不存在时,元素被清零放)。

_mm256_maskz_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成 64 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并使用 zeromask k 将低 32 字节 (4 个元素) 存储在 dst 中 (当相应的掩码位不存在时,元素被清零放)。

_mm256_maskz_and_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_and_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_andnot_epi32Experimentalavx512f,avx512vl

计算 a 中包装的 32 位整数的按位 NOT,然后计算 b 中的 AND,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_andnot_epi64Experimentalavx512f,avx512vl

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_avg_epu8Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 8 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_avg_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_broadcast_f32x4Experimentalavx512f,avx512vl

使用零掩码 k 将 4 个包装的单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_broadcast_i32x4Experimentalavx512f,avx512vl

使用零掩码 k 将 4 的包装的 32 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_broadcastb_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 8 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_broadcastd_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_broadcastq_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_broadcastsd_pdExperimentalavx512f,avx512vl

使用零掩码 k 将低双精度 (64-bit) 浮点元素从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_broadcastss_psExperimentalavx512f,avx512vl

使用零掩码 k 将低单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_broadcastw_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_compress_epi8Experimentalavx512vbmi2,avx512vl

将 a 中的活动 8 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm256_maskz_compress_epi16Experimentalavx512vbmi2,avx512vl

将 a 中的活动 16 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm256_maskz_compress_epi32Experimentalavx512f,avx512vl

将活动的 32 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm256_maskz_compress_epi64Experimentalavx512f,avx512vl

将活动的 64 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm256_maskz_compress_pdExperimentalavx512f,avx512vl

将活动的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm256_maskz_compress_psExperimentalavx512f,avx512vl

将活动的单精度 (32-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm256_maskz_conflict_epi32Experimentalavx512cd,avx512vl

使用零掩码 k (在未设置相应的掩码位时将元素清零),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_maskz_conflict_epi64Experimentalavx512cd,avx512vl

使用零掩码 k (在未设置相应的掩码位时将元素清零),测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm256_maskz_cvt_roundps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_maskz_cvtepi8_epi16Experimentalavx512bw,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_cvtepi8_epi32Experimentalavx512f,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi8_epi64Experimentalavx512f,avx512vl

将 a 的低 4 字节中的 8 位整数符号扩展为包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_cvtepi16_epi8Experimentalavx512bw,avx512vl

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi16_epi32Experimentalavx512f,avx512vl

符号将包装的 16 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_cvtepi16_epi64Experimentalavx512f,avx512vl

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi32_epi64Experimentalavx512f,avx512vl

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi32_pdExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_cvtepi32_psExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k (未设置相应的掩码位时将元素清零) 将结果存储在 dst 中。

_mm256_maskz_cvtepi64_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi64_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtepu8_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_cvtepu8_epi32Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数 a 的低 8 字节到包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_cvtepu8_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 4 字节到包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_cvtepu16_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_cvtepu16_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 16 位整数 a 的低 8 字节到包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_cvtepu32_epi64Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_cvtepu32_pdExperimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在单个 vector dst 中 (当对应的掩码位不存在时,元素归零放)。

_mm256_maskz_cvtneps_pbhExperimentalavx512bf16,avx512vl

将包装的单精度 (32-bit) 浮点元素在 a 中转换为包装的 BF16 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_cvtpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm256_maskz_cvtpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm256_maskz_cvtpd_psExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm256_maskz_cvtph_psExperimentalavx512f,avx512vl

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvtps_epi32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm256_maskz_cvtps_epu32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm256_maskz_cvtps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_maskz_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm256_maskz_cvtsepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 64 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_cvtsepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_cvtsepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_cvttpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm256_maskz_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_cvttps_epi32Experimentalavx512f,avx512vl

将带有 a 的包装的单精度 (32-bit) 浮点元素转换为带有截断的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs) 的总和,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将 16 位结果存储在 dst 中。对于每个 64 位通道,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中通道的低 8 位四元组,而后两个 SAD 使用 a 中通道的较高 8 位四元组。根据 imm8 中的控件,从 128 位通道中选择 b 中的四元组,并且每个 64 位通道中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm256_maskz_div_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_div_psExperimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素除以 b 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素进行累加,并将结果存储在 dst 中使用 zeromask k (当对应的掩码为位未设置)。

_mm256_maskz_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果使用 zeromask k 存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数用带符号饱和求和,并将包装的 32 位结果用 zeromask k 存储在 dst 中 (当对应的掩码位未设置时,元素被清零)。

_mm256_maskz_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_expand_epi8Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_expand_epi16Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_expand_epi32Experimentalavx512f,avx512vl

从 a 中加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_expand_epi64Experimentalavx512f,avx512vl

从 a 中加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_expand_pdExperimentalavx512f,avx512vl

从 a 中加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_expand_psExperimentalavx512f,avx512vl

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_extractf32x4_psExperimentalavx512f,avx512vl

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_extracti32x4_epi32Experimentalavx512f,avx512vl

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM1 选择,结果用 zeromask k 存储在 dst 中 (当相应的掩码位未设置时,元素归零)。

_mm256_maskz_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。imm8 用于设置所需的标志报告。

_mm256_maskz_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。imm8 用于设置所需的标志报告。

_mm256_maskz_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_fmaddsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm256_maskz_fmaddsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm256_maskz_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm256_maskz_fmsubadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,或者将 C from/to 中的包装元素相减并相加,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm256_maskz_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当相应的 mask 位为零时,元素被清零未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm256_maskz_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为代表整数指数的单精度 (32-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当相应的 mask 位为零时,元素被清零未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm256_maskz_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm256_maskz_getmant_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数规格化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm256_maskz_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_maskz_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm256_maskz_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm256_maskz_insertf32x4Experimentalavx512f,avx512vl

将 a 复制到 tmp,然后在 x00X 指定的位置将 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成) 插入 tmp。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm256_maskz_inserti32x4Experimentalavx512f,avx512vl

将 a 复制到 tmp,然后在 imm8 指定的位置,将 b 中的 128 位 (由 4 个包装的 32 位整数组成) 插入 tmp。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm256_maskz_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_madd_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 zeromask k 将结果打包到 dst (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_maddubs_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平添加相邻的中间有符号 16 位整数对,并使用 zeromask k 将饱和结果打包到 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_max_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm256_maskz_max_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm256_maskz_max_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm256_maskz_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_max_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm256_maskz_max_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm256_maskz_max_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm256_maskz_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm256_maskz_max_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm256_maskz_max_psExperimentalavx512f,avx512vl

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm256_maskz_min_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm256_maskz_min_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm256_maskz_min_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm256_maskz_min_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm256_maskz_min_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm256_maskz_min_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm256_maskz_min_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm256_maskz_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm256_maskz_min_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm256_maskz_min_psExperimentalavx512f,avx512vl

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm256_maskz_mov_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将包装的 8 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_mov_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将包装的 16 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_mov_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将包装的 32 位整数从 a 移至 dst (未设置相应的掩码位时将元素清零)。

_mm256_maskz_mov_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将包装的 64 位整数从 a 移到 dst (未设置相应的掩码位时,元素将清零)。

_mm256_maskz_mov_pdExperimentalavx512f,avx512vl

使用零掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移到 dst (未设置相应的掩码位时将元素清零)。

_mm256_maskz_mov_psExperimentalavx512f,avx512vl

使用零掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移到 dst (未设置相应的掩码位时将元素清零)。

_mm256_maskz_movedup_pdExperimentalavx512f,avx512vl

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_movehdup_psExperimentalavx512f,avx512vl

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_moveldup_psExperimentalavx512f,avx512vl

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mul_epi32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低位有符号 32 位整数相乘,并使用零掩码 k 将有符号的 64 位结果存储在 dst 中 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_mul_epu32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用零掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_mul_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mul_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_mulhi_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的带符号的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_mulhi_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_mulhrs_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 zeromask k 将位 [16:1] 存储到 dst (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_mullo_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_mullo_epi32Experimentalavx512f,avx512vl

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将中间整数的低 32 位存储在 dst 中。

_mm256_maskz_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 zeromask k (元素当相应的屏蔽位未设置时被清零)。

_mm256_maskz_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_packs_epi16Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_packs_epi32Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_packus_epi16Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_packus_epi32Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_permute_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道内对双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permute_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutevar_pdExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位通道内将 a 中的双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutevar_psExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位通道内将 a 的单精度 (32-bit) 浮点元素打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨通道打乱,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 32 位整数进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 64 位整数进行混洗,并使用 zeromask k (未设置相应的 mask 位时将元素清零) 将结果存储在 dst 中。

_mm256_maskz_permutex2var_pdExperimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的通道 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_permutex_epi64Experimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位通道内将 64 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutex_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位通道内将双精度 (64-bit) 浮点元素打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引在跨通道的 a 中打乱 8 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨通道中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutexvar_epi32Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨通道中对 32 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutexvar_epi64Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨通道中对 64 位整数进行打乱,并使用零掩码 k (未设置相应的掩码位时将元素清零) 将结果存储在 dst 中。

_mm256_maskz_permutexvar_pdExperimentalavx512f,avx512vl

使用 idx 中的相应索引在跨通道中对双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_permutexvar_psExperimentalavx512f,avx512vl

使用 idx 中的相应索引在跨通道中对单精度 (32-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_maskz_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_maskz_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_maskz_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm256_maskz_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。该近似值的最大相对误差小于 2^-14。

_mm256_maskz_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm256_maskz_rol_epi32Experimentalavx512f,avx512vl

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_rol_epi64Experimentalavx512f,avx512vl

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm256_maskz_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm256_maskz_ror_epi32Experimentalavx512f,avx512vl

将 X 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_ror_epi64Experimentalavx512f,avx512vl

将 X 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm256_maskz_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm256_maskz_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm256_maskz_roundscale_pdExperimentalavx512f,avx512vl

将 x 中的包装双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_maskz_roundscale_psExperimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_maskz_rsqrt14_pdExperimentalavx512f,avx512vl

计算 a 中的包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm256_maskz_rsqrt14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。该近似值的最大相对误差小于 2^-14。

_mm256_maskz_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_set1_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_set1_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_set1_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_set1_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm256_maskz_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shuffle_epi8Experimentalavx512bw,avx512vl

根据 b 的相应 8 位元素中的打乱控制掩码对 a 中的包装 8 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_shuffle_epi32Experimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道中的 32 位整数中混洗 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shuffle_f32x4Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个单精度 (32-bit) 浮点元素组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_shuffle_f64x2Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_shuffle_i32x4Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_shuffle_i64x2Experimentalavx512f,avx512vl

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_shuffle_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件对 128 位通道内的双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shuffle_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_shufflehi_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位通道的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的高 64 位中,将 128 位通道的低 64 位从 a 复制到 dst,使用 zeromask k (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_shufflelo_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位通道的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的低 64 位中,并使用写掩码 k 将 128 位通道的高 64 位从 a 复制到 dst (当未使用相应的掩码位时,元素从 src 复制) 放)。

_mm256_maskz_sll_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数左移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sll_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sll_epi64Experimentalavx512f,avx512vl

将填充的 64 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_slli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_slli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_slli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移由 count 中的相应元素指定的数量,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sllv_epi32Experimentalavx512f,avx512vl

在将移位的 32 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sllv_epi64Experimentalavx512f,avx512vl

在将移位的 64 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sqrt_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用零掩码 k (将结果置零,当未设置相应的掩码位时将元素清零) 将结果存储在 dst 中。

_mm256_maskz_sqrt_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sra_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数右移,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sra_epi32Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srai_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srai_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移由 count 中的相应元素指定的数量,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srav_epi32Experimentalavx512f,avx512vl

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srav_epi64Experimentalavx512f,avx512vl

在移入符号位的同时,将包装的 64 位整数右移由 count 中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srl_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srl_epi32Experimentalavx512f,avx512vl

将移位的 32 位整数右移,同时移零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srl_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移计数,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm256_maskz_srli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srlv_epi32Experimentalavx512f,avx512vl

向右移动已包装的 32 位整数,偏移量为相应元素在计数中指定的数量,同时向零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_srlv_epi64Experimentalavx512f,avx512vl

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时移位为零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_sub_epi8Experimentalavx512bw,avx512vl

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_sub_epi16Experimentalavx512bw,avx512vl

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_sub_epi32Experimentalavx512f,avx512vl

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_sub_epi64Experimentalavx512f,avx512vl

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sub_pdExperimentalavx512f,avx512vl

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_sub_psExperimentalavx512f,avx512vl

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_subs_epi8Experimentalavx512bw,avx512vl

使用饱和度从包装的 8 位整数中减去 b 中的包装有符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_subs_epi16Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_subs_epu8Experimentalavx512bw,avx512vl

使用 a 饱和度从 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_subs_epu16Experimentalavx512bw,avx512vl

使用 a 饱和度将 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 32 位整数中的每一位,来自 a、b 和 c 的相应位用于形成 imm8 的 3 位索引,并使用零掩码将 imm8 中该位的值写入 dst 中的相应位 k 在 32 位粒度 (当未设置相应的掩码位时,32 位元素被清零)。

_mm256_maskz_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 64 位整数中的每一位,来自 a、b 和 c 的相应位用于在 imm8 中形成 3 位索引,并使用零掩码将 imm8 中该位的值写入 dst 中的相应位 k 在 64 位粒度 (当未设置相应的掩码位时,64 位元素将被清零)。

_mm256_maskz_unpackhi_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_unpackhi_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_unpackhi_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_unpackhi_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_unpackhi_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_unpackhi_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_unpacklo_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_unpacklo_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_unpacklo_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_unpacklo_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm256_maskz_unpacklo_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_unpacklo_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm256_maskz_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_maskz_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm256_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并将包装的最大值存储在 dst 中。

_mm256_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最大值存储在 dst 中。

_mm256_min_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并将包装的最小值存储在 dst 中。

_mm256_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最小值存储在 dst 中。

_mm256_movepi8_maskExperimentalavx512bw,avx512vl

根据 a 中相应包装的 8 位整数的最高有效位设置掩码寄存器 k 的每个位。

_mm256_movepi16_maskExperimentalavx512bw,avx512vl

根据 a 中相应的包装的 16 位整数的最高有效位设置掩码寄存器 k 的每一位。

_mm256_movm_epi8Experimentalavx512bw,avx512vl

根据 k 中相应位的值,将 dst 中每个包装的 8 位整数设置为全 1 或全 0。

_mm256_movm_epi16Experimentalavx512bw,avx512vl

根据 k 中相应位的值,将 dst 中每个包装的 16 位整数设置为全 1 或全 0。

_mm256_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并将 8 个组装字节存储到 dst 的相应 64 位元素。

_mm256_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并将结果存储在 dst 中。

_mm256_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并将结果存储在 dst 中。

_mm256_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨通道打乱,并将结果存储在 dst 中。

_mm256_permutex2var_epi16Experimentalavx512bw,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm256_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中随机排列 32 位整数,并将结果存储在 dst 中。

_mm256_permutex2var_epi64Experimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中随机排列 64 位整数,并将结果存储在 dst 中。

_mm256_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm256_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm256_permutex_epi64Experimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位通道中的 a 内随机排列 64 位整数,并将结果存储在 dst 中。

_mm256_permutex_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 256 位通道内对双精度 (64-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm256_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引将 a 中的 8 位整数打乱到通道中,并将结果存储在 dst 中。

_mm256_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨通道中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm256_permutexvar_epi32Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨通道中随机排列 32 位整数,并将结果存储在 dst 中。

_mm256_permutexvar_epi64Experimentalavx512f,avx512vl

使用 idx 中的相应索引在跨通道中随机排列 64 位整数,并将结果存储在 dst 中。

_mm256_permutexvar_pdExperimentalavx512f,avx512vl

使用 idx 中的相应索引在跨通道中对双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm256_permutexvar_psExperimentalavx512f,avx512vl

使用 idx 中的相应索引对跨通道中的单精度 (32-bit) 浮点元素进行打乱。

_mm256_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm256_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm256_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm256_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm256_rol_epi32Experimentalavx512f,avx512vl

将 X 中每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm256_rol_epi64Experimentalavx512f,avx512vl

将 X 中每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm256_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm256_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm256_ror_epi32Experimentalavx512f,avx512vl

将 X 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并将结果存储在 dst 中。

_mm256_ror_epi64Experimentalavx512f,avx512vl

将 X 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm256_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm256_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm256_roundscale_pdExperimentalavx512f,avx512vl

将 x 中的包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_roundscale_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,然后将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm256_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm256_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm256_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并将高 16 位存储在 dst 中)。

_mm256_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并将高 32 位存储在 dst 中。

_mm256_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并将高 64 位存储在 dst 中)。

_mm256_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的对应元素中指定的量,并将高 16 位存储在 dst 中。

_mm256_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的对应元素中指定的量,并将高 32 位存储在 dst 中。

_mm256_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的对应元素中指定的量,并将高 64 位存储在 dst 中。

_mm256_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并将低 16 位存储在 dst 中。

_mm256_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并将低 32 位存储在 dst 中。

_mm256_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并将低 64 位存储在 dst 中。

_mm256_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的对应元素中指定的量,并将低 16 位存储在 dst 中。

_mm256_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的对应元素中指定的量,并将低 32 位存储在 dst 中。

_mm256_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的对应元素中指定的量,并将低 64 位存储在 dst 中。

_mm256_shuffle_f32x4Experimentalavx512f,avx512vl

imm8 从 a 和 b 中随机选择 128 位 (由 4 个单精度 (32-bit) 浮点元素组成),并将结果存储在 dst 中。

_mm256_shuffle_f64x2Experimentalavx512f,avx512vl

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成),并将结果存储在 dst 中。

_mm256_shuffle_i32x4Experimentalavx512f,avx512vl

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成),并将结果存储在 dst 中。

_mm256_shuffle_i64x2Experimentalavx512f,avx512vl

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成),并将结果存储在 dst 中。

_mm256_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并将结果存储在 dst 中。

_mm256_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时按计数右移包装的 64 位整数,并将结果存储在 dst 中。

_mm256_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并将结果存储在 dst 中。

_mm256_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 count 中相应元素指定的数量,同时移入符号位,然后将结果存储在 dst 中。

_mm256_srav_epi64Experimentalavx512f,avx512vl

将移位的 64 位整数向右移动计数中相应元素指定的数量,同时移入符号位,并将结果存储在 dst 中。

_mm256_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并将结果存储在 dst 中。

_mm256_store_epi32Experimentalavx512f,avx512vl

将 a 中的 256 位 (由 8 个包装的 32 位整数组成) 存储到内存中。mem_addr 必须在 32 字节边界上对齐,否则可能会生成一般保护异常。

_mm256_store_epi64Experimentalavx512f,avx512vl

将 a 中的 256 位 (由 4 个包装的 64 位整数组成) 存储到内存中。mem_addr 必须在 32 字节边界上对齐,否则可能会生成一般保护异常。

_mm256_storeu_epi8Experimentalavx512bw,avx512vl

将 a 中的 256 位 (由 32 个包装的 8 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm256_storeu_epi16Experimentalavx512bw,avx512vl

将 a 中的 256 位 (由 16 个包装的 16 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm256_storeu_epi32Experimentalavx512f,avx512vl

将 a 中的 256 位 (由 8 个包装的 32 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm256_storeu_epi64Experimentalavx512f,avx512vl

将 a 中的 256 位 (由 4 个包装的 64 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm256_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每个位,来自 a,b 和 c 的相应位用于形成到 imm8 的 3 位索引,并且将 imm8 中该位的值写入 dst 中的相应位。

_mm256_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 64 位整数中的每一位,a、b 和 c 中的相应位用于形成 imm8 中的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位。

_mm256_test_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm256_test_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm256_test_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm256_test_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm256_testn_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm256_testn_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm256_testn_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm256_testn_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间的 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm256_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并将结果存储在 dst 中。

_mm256_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并将结果存储在 dst 中。

_mm512_abs_epi8Experimentalavx512bw

计算 a 中包装的带符号的 8 位整数的绝对值,并将无符号的结果存储在 dst 中。

_mm512_abs_epi16Experimentalavx512bw

计算 a 中包装的带符号的 16 位整数的绝对值,并将无符号的结果存储在 dst 中。

_mm512_abs_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的绝对值。

_mm512_abs_epi64Experimentalavx512f

计算 a 中包装的带符号的 64 位整数的绝对值,并将无符号的结果存储在 dst 中。

_mm512_abs_pdExperimentalavx512f

查找 v2 中每个包装的双精度 (64-bit) 浮点元素的绝对值,并将结果存储在 dst 中。

_mm512_abs_psExperimentalavx512f

查找 v2 中每个包装的单精度 (32-bit) 浮点元素的绝对值,并将结果存储在 dst 中。

_mm512_add_epi8Experimentalavx512bw

将包装的 8 位整数添加到 a 和 b 中,并将结果存储在 dst 中。

_mm512_add_epi16Experimentalavx512bw

将包装的 16 位整数添加到 a 和 b 中,并将结果存储在 dst 中。

_mm512_add_epi32Experimentalavx512f

在 a 和 b 中添加包装的 32 位整数,并将结果存储在 dst 中。

_mm512_add_epi64Experimentalavx512f

在 a 和 b 中添加包装的 64 位整数,并将结果存储在 dst 中。

_mm512_add_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_add_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_add_round_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_add_round_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_adds_epi8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并将结果存储在 dst 中。

_mm512_adds_epi16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并将结果存储在 dst 中。

_mm512_adds_epu8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并将结果存储在 dst 中。

_mm512_adds_epu16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并将结果存储在 dst 中。

_mm512_aesdec_epi128Experimentalavx512vaes,avx512f

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行一轮 AES 解密流程。

_mm512_aesdeclast_epi128Experimentalavx512vaes,avx512f

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行最后一轮 AES 解密流程。

_mm512_aesenc_epi128Experimentalavx512vaes,avx512f

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行一轮 AES 加密流程。

_mm512_aesenclast_epi128Experimentalavx512vaes,avx512f

使用 round_key 中的相应 128 位字 (key) 对 a 中的每个 128 位字 (state) 执行最后一轮 AES 加密流程。

_mm512_alignr_epi8Experimentalavx512bw

将 a 和 b 中的 16 字节块对连接成 32 字节的临时结果,将结果右移 imm8 字节,并将低 16 字节存储在 dst 中。

_mm512_alignr_epi32Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 32 位元素,并将低 64 字节 (16 个元素) 存储在 dst 中。

_mm512_alignr_epi64Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 64 位元素,并将低 64 字节 (8 个元素) 存储在 dst 中。

_mm512_and_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位与,并将结果存储在 dst 中。

_mm512_and_epi64Experimentalavx512f

计算 a 和 b 中 512 位 (由包装的 64 位整数组成) 的按位与,并将结果存储在 dst 中。

_mm512_and_si512Experimentalavx512f

计算 a 和 b 中 512 位 (代表整数数据) 的按位与,并将结果存储在 dst 中。

_mm512_andnot_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的按位 NOT,然后与 b 计算 AND,并将结果存储在 dst 中。

_mm512_andnot_epi64Experimentalavx512f

计算 a 中的 512 位 (由包装的 64 位整数组成) 的按位非,然后与 b 计算 AND,并将结果存储在 dst 中。

_mm512_andnot_si512Experimentalavx512f

计算 a 中的 512 位 (代表整数数据) 的按位非,然后与 b 计算 AND,并将结果存储在 dst 中。

_mm512_avg_epu8Experimentalavx512bw

将 a 和 b 中包装的无符号 8 位整数平均,然后将结果存储在 dst 中。

_mm512_avg_epu16Experimentalavx512bw

将 a 和 b 中的包装无符号 16 位整数进行平均,然后将结果存储在 dst 中。

_mm512_bitshuffle_epi64_maskExperimentalavx512bitalg

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm512_broadcast_f32x4Experimentalavx512f

从 a 广播 4 个包装的单精度 (32-bit) 浮点元素到 dst 的所有元素。

_mm512_broadcast_f64x4Experimentalavx512f

从 a 广播 4 个包装的双精度 (64-bit) 浮点元素到 dst 的所有元素。

_mm512_broadcast_i32x4Experimentalavx512f

将 4 个包装的 32 位整数从 a 广播到 dst 的所有元素。

_mm512_broadcast_i64x4Experimentalavx512f

将 4 个包装的 64 位整数从 a 广播到 dst 的所有元素。

_mm512_broadcastb_epi8Experimentalavx512bw

将低包装的 8 位整数从 a 广播到 dst 的所有元素。

_mm512_broadcastd_epi32Experimentalavx512f

将低包装的 32 位整数从 a 广播到 dst 的所有元素。

_mm512_broadcastmb_epi64Experimentalavx512cd

将输入掩码 k 的低 8 位广播到 dst 的所有 64 位元素。

_mm512_broadcastmw_epi32Experimentalavx512cd

将输入掩码 k 的低 16 位广播到 dst 的所有 32 位元素。

_mm512_broadcastq_epi64Experimentalavx512f

将低包装的 64 位整数从 a 广播到 dst 的所有元素。

_mm512_broadcastsd_pdExperimentalavx512f

从 a 广播低双精度 (64-bit) 浮点元素到 dst 的所有元素。

_mm512_broadcastss_psExperimentalavx512f

将低单精度 (32-bit) 浮点元素从 A 广播到 dst 的所有元素。

_mm512_broadcastw_epi16Experimentalavx512bw

将低包装的 16 位整数从 a 广播到 dst 的所有元素。

_mm512_bslli_epi128Experimentalavx512bw

向左移动 128 位通道 imm8 字节,同时向零移动,并将结果存储在 dst 中。

_mm512_bsrli_epi128Experimentalavx512bw

向右移动 128 位通道 imm8 字节,同时向零移动,并将结果存储在 dst 中。

_mm512_castpd128_pd512Experimentalavx512f

将类型 __m128d 的 vector 强制转换为 __m512d 类型; 结果的高 384 位未定义。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castpd256_pd512Experimentalavx512f

将类型 __m256d 的 vector 强制转换为 __m512d 类型; 结果的高 256 位未定义。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castpd512_pd128Experimentalavx512f

将类型为 __m512d 的 vector 强制转换为类型为 __m128d 的 vector。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castpd512_pd256Experimentalavx512f

将类型为 __m512d 的 vector 强制转换为类型为 __m256d 的 vector。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castpd_psExperimentalavx512f

将类型为 __m512d 的 vector 强制转换为类型 __m512。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castpd_si512Experimentalavx512f

将类型为 __m512d 的 vector 强制转换为类型为 __m512i 的 vector。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castps128_ps512Experimentalavx512f

将类型 __m128 的 vector 转换为 __m512 类型; 结果的高 384 位未定义。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castps256_ps512Experimentalavx512f

将类型为 __m256 的 vector 强制转换为类型 __m512; 结果的高 256 位未定义。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castps512_ps128Experimentalavx512f

将类型为 __m512 的 vector 强制转换为类型为 __m128 的 vector。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castps512_ps256Experimentalavx512f

将类型为 __m512 的 vector 强制转换为类型 __m256。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castps_pdExperimentalavx512f

将类型为 __m512 的 vector 强制转换为类型为 __m512d 的 vector。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castps_si512Experimentalavx512f

将类型为 __m512 的 vector 强制转换为类型 __m512i。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castsi128_si512Experimentalavx512f

将类型为 __m128i 的 vector 强制转换为类型 __m512i; 结果的高 384 位未定义。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castsi256_si512Experimentalavx512f

将类型为 __m256i 的 vector 强制转换为类型 __m512i; 结果的高 256 位未定义。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castsi512_pdExperimentalavx512f

将类型为 __m512i 的 vector 强制转换为类型为 __m512d 的 vector。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castsi512_psExperimentalavx512f

将类型为 __m512i 的 vector 强制转换为类型 __m512。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castsi512_si128Experimentalavx512f

将类型为 __m512i 的 vector 强制转换为类型为 __m128i 的 vector。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_castsi512_si256Experimentalavx512f

将类型为 __m512i 的 vector 强制转换为类型为 __m256i 的 vector。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_clmulepi64_epi128Experimentalavx512vpclmulqdq,avx512f

在 4 个 128 位通道中的每一个中,在有限域 GF(2^k) 上执行两个 64 位多项式的无进位乘法。

_mm512_cmp_epi8_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中的包装带符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epi16_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epi32_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装有符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epi64_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epu8_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epu16_maskExperimentalavx512bw

根据 IMM8 指定的比较操作数比较 a 和 b 中包装的无符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epu32_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_epu64_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 64 位整数,并将结果存储在掩码 vector k 中。

_mm512_cmp_pd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm512_cmp_ps_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm512_cmp_round_pd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cmp_round_ps_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cmpeq_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpeq_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpge_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmpgt_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm512_cmple_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm512_cmple_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm512_cmple_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm512_cmple_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm512_cmple_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数以得出小于或等于的结果,并将结果存储在掩码 vector k 中。

_mm512_cmple_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmple_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmple_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmple_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmple_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmplt_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数小于零,并将结果存储在掩码 vector k 中。

_mm512_cmplt_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm512_cmplt_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm512_cmplt_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数小于零,并将结果存储在掩码 vector k 中。

_mm512_cmplt_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数以得到小于,并将结果存储在掩码 vector k 中。

_mm512_cmplt_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装后的无符号 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm512_cmplt_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm512_cmplt_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm512_cmplt_pd_maskExperimentalavx512f

比较 a 和 b 中包装后的双精度 (64-bit) 浮点元素的小于,并将结果存储在掩码 vector k 中。

_mm512_cmplt_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素的小于,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否相等,并将结果存储在掩码 vector k 中。

_mm512_cmpneq_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否不相等,并将结果存储在掩码 vector k 中。

_mm512_cmpnle_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否等于或小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpnle_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否等于或小于等于,并将结果存储在掩码 vector k 中。

_mm512_cmpnlt_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素不小于,并将结果存储在掩码 vector k 中。

_mm512_cmpnlt_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素不小于,并将结果存储在掩码 vector k 中。

_mm512_cmpord_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,看是否都不是 NaN,并将结果存储在掩码 vector k 中。

_mm512_cmpord_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,看是否都不是 NaN,并将结果存储在掩码 vector k 中。

_mm512_cmpunord_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,以查看其中一个是否为 NaN,并将结果存储在掩码 vector k 中。

_mm512_cmpunord_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,以查看是否为 NaN,并将结果存储在掩码 vector k 中。

_mm512_conflict_epi32Experimentalavx512cd

测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm512_conflict_epi64Experimentalavx512cd

测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm512_cvt_roundepi32_psExperimentalavx512f

将包装后的带符号的 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvt_roundepu32_psExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvt_roundpd_epi32Experimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvt_roundpd_epu32Experimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvt_roundpd_psExperimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvt_roundph_psExperimentalavx512f

将包装的半精度 (16-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvt_roundps_epi32Experimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvt_roundps_epu32Experimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvt_roundps_pdExperimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvt_roundps_phExperimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvtepi8_epi16Experimentalavx512bw

使用符号将包装的 8 位整数从 a 扩展到包装的 16 位整数,并将结果存储在 dst 中。

_mm512_cvtepi8_epi32Experimentalavx512f

使用符号将包装的 8 位整数从 a 扩展到包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtepi8_epi64Experimentalavx512f

符号将 a 的低 8 个字节中的包装 8 位整数扩展为包装 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepi16_epi8Experimentalavx512bw

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm512_cvtepi16_epi32Experimentalavx512f

符号将包装的 16 位整数从 a 扩展为包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtepi16_epi64Experimentalavx512f

使用符号将包装的 16 位整数从 a 扩展到包装的 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepi32_epi8Experimentalavx512f

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm512_cvtepi32_epi16Experimentalavx512f

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm512_cvtepi32_epi64Experimentalavx512f

使用符号将包装的 32 位整数从 a 扩展到包装的 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepi32_pdExperimentalavx512f

将包装后的带符号的 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtepi32_psExperimentalavx512f

将包装后的带符号的 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtepi32lo_pdExperimentalavx512f

将 v2 中包装的 32 位整数整数元素的下半部分转换为包装的双精度 (64-bit) 浮点元素,将元素进行逐元素转换,并将结果存储在 dst 中。

_mm512_cvtepi64_epi8Experimentalavx512f

将带有 a 的包装的 64 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm512_cvtepi64_epi16Experimentalavx512f

将带有 a 的包装的 64 位整数转换为带有截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm512_cvtepi64_epi32Experimentalavx512f

将带有 a 的包装的 64 位整数转换为带有截断的包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtepu8_epi16Experimentalavx512bw

将 a 中的包装无符号 8 位整数零扩展为包装 16 位整数,并将结果存储在 dst 中。

_mm512_cvtepu8_epi32Experimentalavx512f

将 a 中的包装无符号 8 位整数零扩展为包装 32 位整数,并将结果存储在 dst 中。

_mm512_cvtepu8_epi64Experimentalavx512f

将低 8 字节 sof 中的包装无符号 8 位整数零扩展到包装 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepu16_epi32Experimentalavx512f

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并将结果存储在 dst 中。

_mm512_cvtepu16_epi64Experimentalavx512f

将 a 中的包装无符号 16 位整数零扩展为包装 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepu32_epi64Experimentalavx512f

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并将结果存储在 dst 中。

_mm512_cvtepu32_pdExperimentalavx512f

将 A 中的包装的无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtepu32_psExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtepu32lo_pdExperimentalavx512f

将 v2 中包装的 32 位无符号整数整数元素的下半部分转换为包装的双精度 (64-bit) 浮点元素,将每个元素进行逐元素转换,并将结果存储在 dst 中。

_mm512_cvtne2ps_pbhExperimentalavx512bf16,avx512f

将两个 512 位 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并将结果存入 a

_mm512_cvtneps_pbhExperimentalavx512bf16,avx512f

将包装在 a 中的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并将结果存储在 dst 中。 Intel’s documentation

_mm512_cvtpd_epi32Experimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtpd_epu32Experimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvtpd_psExperimentalavx512f

将包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtpd_psloExperimentalavx512f

将 v2 中的包装的双精度 (64-bit) 浮点元素执行逐元素转换为单精度 (32-bit) 浮点元素并将其存储在 dst 中。元素存储在结果 vector 的下半部分中,而其余的上半部分位置设置为 0。

_mm512_cvtph_psExperimentalavx512f

将包装的半精度 (16-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtps_epi32Experimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtps_epu32Experimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvtps_pdExperimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_cvtps_phExperimentalavx512f

将包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvtpslo_pdExperimentalavx512f

对 v2 中包装的单精度 (32-bit) 浮点元素的下半部分到包装的双精度 (64-bit) 浮点元素的下半部分进行逐元素转换,并将结果存储在 dst 中。

_mm512_cvtsepi16_epi8Experimentalavx512bw

将 A 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm512_cvtsepi32_epi8Experimentalavx512f

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm512_cvtsepi32_epi16Experimentalavx512f

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm512_cvtsepi64_epi8Experimentalavx512f

将包装的带符号的 64 位整数转换为带符号饱和的包装的 8 位整数,并将结果存储在 dst 中。

_mm512_cvtsepi64_epi16Experimentalavx512f

将包装的带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并将结果存储在 dst 中。

_mm512_cvtsepi64_epi32Experimentalavx512f

将包装的带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvtsi512_si32Experimentalavx512f

将 a 中的低 32 位整数复制到 dst。

_mm512_cvtt_roundpd_epi32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvtt_roundpd_epu32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvtt_roundps_epi32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvtt_roundps_epu32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_cvttpd_epi32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvttpd_epu32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvttps_epi32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并将结果存储在 dst 中。

_mm512_cvttps_epu32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi16_epi8Experimentalavx512bw

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi32_epi8Experimentalavx512f

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi32_epi16Experimentalavx512f

将 A 中的包装无符号 32 位整数转换为具有无符号饱和度的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi64_epi8Experimentalavx512f

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi64_epi16Experimentalavx512f

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm512_cvtusepi64_epi32Experimentalavx512f

将 A 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并将结果存储在 dst 中。

_mm512_dbsad_epu8Experimentalavx512bw

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并将 16 位结果存储在 dst 中。对于每个 64 位通道,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中通道的低 8 位四元组,而后两个 SAD 使用 a 中通道的较高 8 位四元组。根据 imm8 中的控件,从 128 位通道中选择 b 中的四元组,并且每个 64 位通道中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm512_div_pdExperimentalavx512f

将 b 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后将结果存储在 dst 中。

_mm512_div_psExperimentalavx512f

将 b 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后将结果存储在 dst 中。

_mm512_div_round_pdExperimentalavx512f

将 b 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,并将结果存储在 dst 中。

_mm512_div_round_psExperimentalavx512f

将 b 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后将结果存储在 dst 中。

_mm512_dpbf16_psExperimentalavx512bf16,avx512f

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素累加,结果存储在 BF16 (16-bit) 浮点对的 dst.Compute 点积中 b、将中间的单精度 (32-bit) 浮点元素与 src 中的元素进行累加,并将结果存入 dst。

_mm512_dpbusd_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm512_dpbusds_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用有符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm512_dpwssd_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm512_dpwssds_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm512_extractf32x4_psExperimentalavx512f

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并将结果存储在 dst 中。

_mm512_extractf64x4_pdExperimentalavx512f

从 a 提取 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成),并用 imm8 进行选择,并将结果存储在 dst 中。

_mm512_extracti32x4_epi32Experimentalavx512f

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM2 选中,结果存入 dst。

_mm512_extracti64x4_epi64Experimentalavx512f

从 a 中提取 256 位 (由 4 个包装的 64 位整数组成),用 IMM1 选择,并将结果存储在 dst 中。

_mm512_fixupimm_pdExperimentalavx512f

使用 c 中的包装的 64 位整数修复 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm512_fixupimm_psExperimentalavx512f

使用 c 中的包装 32 位整数修复 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm512_fixupimm_round_pdExperimentalavx512f

使用 c 中的包装的 64 位整数修复 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm512_fixupimm_round_psExperimentalavx512f

使用 c 中的包装 32 位整数修复 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm512_fmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并将结果存储在 dst 中。

_mm512_fmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并将结果存储在 dst 中。

_mm512_fmadd_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并将结果存储在 dst 中。

_mm512_fmadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并将结果存储在 dst 中。

_mm512_fmaddsub_pdExperimentalavx512f

在 a 和 b 中乘以包装的双精度 (64-bit) 浮点元素,或者在中间结果中乘以 c to/from 的包装的元素,然后将结果存储在 dst 中。

_mm512_fmaddsub_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,或者将 c to/from 中的包装的元素相加或相减,得到中间结果,并将结果存储在 dst 中。

_mm512_fmaddsub_round_pdExperimentalavx512f

在 a 和 b 中乘以包装的双精度 (64-bit) 浮点元素,或者在中间结果中乘以 c to/from 的包装的元素,然后将结果存储在 dst 中。

_mm512_fmaddsub_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,或者将 c to/from 中的包装的元素相加或相减,得到中间结果,并将结果存储在 dst 中。

_mm512_fmsub_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并将结果存储在 dst 中。

_mm512_fmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并将结果存储在 dst 中。

_mm512_fmsub_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并将结果存储在 dst 中。

_mm512_fmsub_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并将结果存储在 dst 中。

_mm512_fmsubadd_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 c from/to 中的包装后的元素相减并相加,然后将结果存储在 dst 中。

_mm512_fmsubadd_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,或者将 c from/to 中的包装的元素相减并相加,得到中间结果,并将结果存储在 dst 中。

_mm512_fmsubadd_round_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 c from/to 中的包装后的元素相减并相加,然后将结果存储在 dst 中。

_mm512_fmsubadd_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,或者将 c from/to 中的包装的元素相减并相加,得到中间结果,并将结果存储在 dst 中。

_mm512_fnmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,然后将结果存储在 dst 中。

_mm512_fnmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,然后将结果存储在 dst 中。

_mm512_fnmadd_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,然后将结果存储在 dst 中。

_mm512_fnmadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,然后将结果存储在 dst 中。

_mm512_fnmsub_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装的元素,并将结果存储在 dst 中。

_mm512_fnmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,然后将结果存储在 dst 中。

_mm512_fnmsub_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装的元素,并将结果存储在 dst 中。

_mm512_fnmsub_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,然后将结果存储在 dst 中。

_mm512_getexp_pdExperimentalavx512f

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并将结果存储在 dst 中。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm512_getexp_psExperimentalavx512f

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并将结果存储在 dst 中。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm512_getexp_round_pdExperimentalavx512f

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并将结果存储在 dst 中。本质上,此内联函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_getexp_round_psExperimentalavx512f

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并将结果存储在 dst 中。本质上,此内联函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_getmant_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数规格化,并将结果存储在 dst 中。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm512_getmant_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数标准化,并将结果存储在 dst 中。 此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。 尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值: _MM_MANT_NORM_1_2 // interval [1, 2) _MM_MANT_NORM_p5_2 // interval [0.5, 2) _MM_MANT_NORM_p5_1 // interval [0.5, 1) _MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5) The sign is determined by sc which can take the following values:

_mm512_getmant_round_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数规格化,并将结果存储在 dst 中。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_getmant_round_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数标准化,并将结果存储在 dst 中。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512f

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm512_i32gather_epi32Experimentalavx512f

使用 32 位索引从内存中收集 32 位整数。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引均按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i32gather_epi64Experimentalavx512f

使用 32 位索引从内存中收集 64 位整数。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引均按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i32gather_pdExperimentalavx512f

使用 32 位索引从内存中收集双精度 (64-bit) 浮点元素。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引均按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i32gather_psExperimentalavx512f

使用 32 位索引从内存中收集单精度 (32-bit) 浮点元素。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引均按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i32scatter_epi32Experimentalavx512f

使用 32 位索引将 32 位整数从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i32scatter_epi64Experimentalavx512f

使用 32 位索引将 64 位整数从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i32scatter_pdExperimentalavx512f

使用 32 位索引将双精度 (64-bit) 浮点元素从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i32scatter_psExperimentalavx512f

使用 32 位索引将单精度 (32-bit) 浮点元素从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引都按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i64gather_epi32Experimentalavx512f

使用 64 位索引从内存中收集 32 位整数。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i64gather_epi64Experimentalavx512f

使用 64 位索引从内存中收集 64 位整数。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i64gather_pdExperimentalavx512f

使用 64 位索引从内存中收集双精度 (64-bit) 浮点元素。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i64gather_psExperimentalavx512f

使用 64 位索引从内存中收集单精度 (32-bit) 浮点元素。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。收集的元素将合并到 dst 中。小数位数应为 1、2、4 或 8。

_mm512_i64scatter_epi32Experimentalavx512f

使用 64 位索引将 32 位整数从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i64scatter_epi64Experimentalavx512f

使用 64 位索引将 64 位整数从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i64scatter_pdExperimentalavx512f

使用 64 位索引将双精度 (64-bit) 浮点元素从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。小数位数应为 1、2、4 或 8。

_mm512_i64scatter_psExperimentalavx512f

使用 64 位索引将单精度 (32-bit) 浮点元素从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放),且受掩码 k 限制 (未设置相应的掩码位时不存储元素)。小数位数应为 1、2、4 或 8。

_mm512_insertf32x4Experimentalavx512f

将 a 复制到 dst,然后在 x00X 指定的位置将 d 的 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成) 插入 dst。

_mm512_insertf64x4Experimentalavx512f

将 a 复制到 dst,然后在 x00X 指定的位置将 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 插入 dst。

_mm512_inserti32x4Experimentalavx512f

将 a 复制到 dst,然后在 x00X 指定的位置将 d 的 128 位 (由 4 个包装的 32 位整数组成) 插入 dst。

_mm512_inserti64x4Experimentalavx512f

将 a 复制到 dst,然后在 imm8 指定的位置将 256 位 (由 4 个包装的 64 位整数组成) 插入 dst。

_mm512_int2maskExperimentalavx512f

将整数掩码转换为位掩码,并将结果存储在 dst 中。

_mm512_kandExperimentalavx512f

计算 16 位掩码 a 和 b 的按位与,并将结果存储在 k 中。

_mm512_kandnExperimentalavx512f

计算 16 位掩码 a 的按位非,然后与 b 计算 AND,并将结果存储在 k 中。

_mm512_kmovExperimentalavx512f

将 16 位掩码 a 复制到 k。

_mm512_knotExperimentalavx512f

计算 16 位掩码 a 的按位非,并将结果存储在 k 中。

_mm512_korExperimentalavx512f

计算 16 位掩码 a 和 b 的按位或,并将结果存储在 k 中。

_mm512_kortestcExperimentalavx512f

在 k1 和 k2 之间执行按位或运算,将结果存储在 dst 中。如果 dst 全为 1,则设置 CF 标志。

_mm512_kunpackbExperimentalavx512f

从掩码 a 和 b 解包并交织 8 位,并将 16 位结果存储在 k 中。

_mm512_kxnorExperimentalavx512f

计算 16 位掩码 a 和 b 的按位 XNOR,并将结果存储在 k 中。

_mm512_kxorExperimentalavx512f

计算 16 位掩码 a 和 b 的按位 XOR,并将结果存储在 k 中。

_mm512_load_epi32Experimentalavx512f

将 512 位 (由 16 个包装的 32 位整数组成) 从 dst 加载。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_load_epi64Experimentalavx512f

将 512 位 (由 8 个包装的 64 位整数组成) 从 dst 加载。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_load_pdExperimentalavx512f

将 512 位 (由 8 个包装的双精度 (64-bit) 浮点元素组成) 从 dst 加载。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_load_psExperimentalavx512f

将 512 位 (由 16 个包装的单精度 (32-bit) 浮点元素组成) 从 dst 加载。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_load_si512Experimentalavx512f

将 512 位整数数据从内存加载到 dst 中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_loadu_epi8Experimentalavx512bw

将 512 位 (由 64 个包装的 8 位整数组成) 从 dst 加载。mem_addr 不需要在任何特定边界上对齐。

_mm512_loadu_epi16Experimentalavx512bw

将 512 位 (由 32 个包装的 16 位整数组成) 从 dst 加载。mem_addr 不需要在任何特定边界上对齐。

_mm512_loadu_epi32Experimentalavx512f

将 512 位 (由 16 个包装的 32 位整数组成) 从 dst 加载。mem_addr 不需要在任何特定边界上对齐。

_mm512_loadu_epi64Experimentalavx512f

将 512 位 (由 8 个包装的 64 位整数组成) 从 dst 加载。mem_addr 不需要在任何特定边界上对齐。

_mm512_loadu_pdExperimentalavx512f

从内存中加载 512 位 (由 8 个包装的双精度 (64-bit) 浮点元素组成) 到结果中。

_mm512_loadu_psExperimentalavx512f

从内存中将 512 位 (由 16 个包装的单精度 (32-bit) 浮点元素组成) 加载到结果中。

_mm512_loadu_si512Experimentalavx512f

将 512 位整数数据从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm512_lzcnt_epi32Experimentalavx512cd

计算 a 中每个包装的 32 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm512_lzcnt_epi64Experimentalavx512cd

计算 a 中每个包装的 64 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm512_madd52hi_epu64Experimentalavx512ifma

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的高 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm512_madd52lo_epu64Experimentalavx512ifma

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的低 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm512_madd_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将相邻的 32 位中间整数对水平相加,并将结果打包到 dst 中。

_mm512_maddubs_epi16Experimentalavx512bw

将 a 中的每个无符号 8 位整数与 b 中对应的有符号 8 位整数垂直相乘,生成中间有符号的 16 位整数。水平相加相邻的中间带符号的 16 位整数对,并将饱和结果包装到 dst 中。

_mm512_mask2_permutex2var_epi8Experimentalavx512vbmi

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨通道打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm512_mask2_permutex2var_epi16Experimentalavx512bw

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm512_mask2_permutex2var_epi32Experimentalavx512f

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm512_mask2_permutex2var_epi64Experimentalavx512f

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm512_mask2_permutex2var_pdExperimentalavx512f

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 idx 复制元素)

_mm512_mask2_permutex2var_psExperimentalavx512f

使用 idx 中的对应选择器和索引在 a 和 b 中的通道中对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm512_mask2intExperimentalavx512f

将位掩码 k1 转换为整数值,并将结果存储在 dst 中。

_mm512_mask3_fmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 c 复制元素)。

_mm512_mask3_fmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm512_mask3_fmadd_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 c 复制元素)。

_mm512_mask3_fmadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm512_mask3_fmaddsub_pdExperimentalavx512f

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm512_mask3_fmaddsub_psExperimentalavx512f

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm512_mask3_fmaddsub_round_pdExperimentalavx512f

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm512_mask3_fmaddsub_round_psExperimentalavx512f

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm512_mask3_fmsub_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm512_mask3_fmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm512_mask3_fmsub_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm512_mask3_fmsub_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm512_mask3_fmsubadd_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm512_mask3_fmsubadd_psExperimentalavx512f

在 a 和 b 中乘以包装的单精度 (32-bit) 浮点元素,或者在中间结果中减去并在 c from/to 中包装的元素相乘,然后使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm512_mask3_fmsubadd_round_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm512_mask3_fmsubadd_round_psExperimentalavx512f

在 a 和 b 中乘以包装的单精度 (32-bit) 浮点元素,或者在中间结果中减去并在 c from/to 中包装的元素相乘,然后使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm512_mask3_fnmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 c 复制元素)。

_mm512_mask3_fnmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 c 复制)。

_mm512_mask3_fnmadd_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 c 复制元素)。

_mm512_mask3_fnmadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 c 复制)。

_mm512_mask3_fnmsub_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 c 复制元素)。

_mm512_mask3_fnmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 c 复制元素)。

_mm512_mask3_fnmsub_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 c 复制元素)。

_mm512_mask3_fnmsub_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 c 复制元素)。

_mm512_mask_abs_epi8Experimentalavx512bw

计算 a 中包装的带符号的 8 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_abs_epi16Experimentalavx512bw

计算 a 中包装的带符号的 16 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_abs_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的绝对值,并使用写掩码 k 将无符号结果存储在 dst 中 (如果未设置相应的掩码位,则从 src 复制元素)。

_mm512_mask_abs_epi64Experimentalavx512f

计算 a 中包装的带符号的 64 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_abs_pdExperimentalavx512f

查找 v2 中每个包装的双精度 (64-bit) 浮点元素的绝对值,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_abs_psExperimentalavx512f

查找 v2 中每个包装的单精度 (32-bit) 浮点元素的绝对值,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_add_epi8Experimentalavx512bw

在 a 和 b 中添加包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_add_epi16Experimentalavx512bw

在 a 和 b 中添加包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_add_epi32Experimentalavx512f

在 a 和 b 中添加包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_add_epi64Experimentalavx512f

在 a 和 b 中添加包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_add_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_add_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_add_round_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_add_round_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_adds_epi8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_adds_epi16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_adds_epu8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_adds_epu16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_alignr_epi8Experimentalavx512bw

将 a 和 b 中的 16 字节块对连接成 32 字节的临时结果,将结果右移 imm8 字节,并使用写掩码 k 将低 16 个字节存储在 dst 中 (当相应的掩码位为 1 时,元素从 src 复制没有设置)。

_mm512_mask_alignr_epi32Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 32 位元素,并使用写掩码 k 将低 64 字节 (16 个元素) 存储在 dst 中 (当相应的掩码位为 1 时,元素从 src 复制) 没有设置)。

_mm512_mask_alignr_epi64Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 64 位元素,并使用写掩码 k 将低 64 字节 (8 个元素) 存储在 dst 中 (当相应的掩码位为 1 时,元素从 src 复制) 没有设置)。

_mm512_mask_and_epi32Experimentalavx512f

在包装的 a 和 b 的 32 位整数元素之间执行逐个元素的按位 AND,使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_and_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位与,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 src 复制元素)。

_mm512_mask_andnot_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_andnot_epi64Experimentalavx512f

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_avg_epu8Experimentalavx512bw

将 a 和 b 中包装的无符号 8 位整数平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_avg_epu16Experimentalavx512bw

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_bitshuffle_epi64_maskExperimentalavx512bitalg

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm512_mask_blend_epi8Experimentalavx512bw

使用控制掩码 k 混合 a 和 b 中的包装 8 位整数,并将结果存储在 dst 中。

_mm512_mask_blend_epi16Experimentalavx512bw

使用控制掩码 k 混合来自 a 和 b 的包装的 16 位整数,并将结果存储在 dst 中。

_mm512_mask_blend_epi32Experimentalavx512f

使用控制掩码 k 混合 a 和 b 中的包装 32 位整数,并将结果存储在 dst 中。

_mm512_mask_blend_epi64Experimentalavx512f

使用控制掩码 k 混合 a 和 b 中的包装 64 位整数,并将结果存储在 dst 中。

_mm512_mask_blend_pdExperimentalavx512f

使用控制掩码 k 混合来自 a 和 b 的包装后的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_mask_blend_psExperimentalavx512f

使用控制掩码 k 混合来自 a 和 b 的包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_mask_broadcast_f32x4Experimentalavx512f

使用写掩码 k 将 4 个包装的单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_broadcast_f64x4Experimentalavx512f

使用写掩码 k 将 4 个包装的双精度 (64-bit) 浮点元素从 a 广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_broadcast_i32x4Experimentalavx512f

使用写掩码 k 将 a 的 4 个包装的 32 位整数广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_broadcast_i64x4Experimentalavx512f

使用写掩码 k 将 a 的 4 个包装的 64 位整数广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_broadcastb_epi8Experimentalavx512bw

使用写掩码 k 将 d 的低包装的 8 位整数广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_broadcastd_epi32Experimentalavx512f

使用写掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_broadcastq_epi64Experimentalavx512f

使用写掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_broadcastsd_pdExperimentalavx512f

使用写掩码 k 将低双精度 (64-bit) 浮点型元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_broadcastss_psExperimentalavx512f

使用写掩码 k 将低单精度 (32-bit) 浮点型元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将元素从 src 复制)。

_mm512_mask_broadcastw_epi16Experimentalavx512bw

使用写掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_cmp_epi8_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmp_epi16_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmp_epi32_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmp_epi64_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmp_epu8_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmp_epu16_maskExperimentalavx512bw

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmp_epu32_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmp_epu64_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmp_pd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmp_ps_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmp_round_pd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cmp_round_ps_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cmpeq_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpeq_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数是否相等,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpeq_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmpeq_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpeq_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpeq_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpeq_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpeq_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpeq_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpeq_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpge_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpge_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpge_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数是否等于或大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpge_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpge_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpge_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpge_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpge_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpgt_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpgt_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpgt_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果使用零掩码 k1 存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpgt_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpgt_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpgt_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpgt_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpgt_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmple_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmple_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmple_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmple_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmple_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmple_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmple_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmple_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmple_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmple_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmplt_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmplt_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmplt_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmplt_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmplt_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmplt_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数以得到小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmplt_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmplt_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmplt_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素的小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmplt_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmpneq_epi8_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_mask_cmpneq_epi16_maskExperimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpneq_epi32_maskExperimentalavx512f

比较 a 和 b 中包装的 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpneq_epi64_maskExperimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_mask_cmpneq_epu8_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpneq_epu16_maskExperimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpneq_epu32_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpneq_epu64_maskExperimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpneq_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmpneq_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否相等,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmpnle_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否等于或小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpnle_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否等于或小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpnlt_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmpnlt_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmpord_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,看是否都不是 NaN,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmpord_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,看是否都不是 NaN,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_cmpunord_pd_maskExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素以查看是否为 NaN,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm512_mask_cmpunord_ps_maskExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,看是否为 NaN,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm512_mask_compress_epi8Experimentalavx512vbmi2

将 a 中的活动 8 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm512_mask_compress_epi16Experimentalavx512vbmi2

将 a 中的活动 16 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm512_mask_compress_epi32Experimentalavx512f

将活动的 32 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm512_mask_compress_epi64Experimentalavx512f

将活动的 64 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm512_mask_compress_pdExperimentalavx512f

将活动的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位在写掩码 k 中设置) 到 dst,并通过 src 中的其余元素。

_mm512_mask_compress_psExperimentalavx512f

将活动的单精度 (32-bit) 浮点元素连续存储在 dst 中 (将其各自的位设置在写掩码 k 中的那些元素中) 存储到 dst,并通过 src 中的其余元素。

_mm512_mask_conflict_epi32Experimentalavx512cd

使用写掩码 k (在未设置相应的掩码位时从 src 复制元素),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm512_mask_conflict_epi64Experimentalavx512cd

使用写掩码 k 测试 a 的每个 64 位元素是否与所有其他元素相等 (更接近最低有效位) (当未设置相应的掩码位时,从 src 复制元素)。每个元素的比较在 dst 中形成零扩展位 vector。

_mm512_mask_cvt_roundepi32_psExperimentalavx512f

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvt_roundepu32_psExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvt_roundpd_epi32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvt_roundpd_epu32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvt_roundpd_psExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvt_roundph_psExperimentalavx512f

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvt_roundps_epi32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvt_roundps_epu32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvt_roundps_pdExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvt_roundps_phExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvtepi8_epi16Experimentalavx512bw

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi8_epi32Experimentalavx512f

符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi8_epi64Experimentalavx512f

符号将 a 的低 8 个字节中的包装 8 位整数扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi16_epi8Experimentalavx512bw

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi16_epi32Experimentalavx512f

符号将包装后的 16 位整数从 a 扩展为包装后的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi16_epi64Experimentalavx512f

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi16_storeu_epi8Experimentalavx512bw

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtepi32_epi8Experimentalavx512f

将带有 a 的包装的 32 位整数转换为带截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi32_epi16Experimentalavx512f

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi32_epi64Experimentalavx512f

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi32_pdExperimentalavx512f

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtepi32_psExperimentalavx512f

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtepi32_storeu_epi8Experimentalavx512f

将包装的 32 位整数在 a 中转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtepi32_storeu_epi16Experimentalavx512f

将 a 中的包装的 32 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtepi32lo_pdExperimentalavx512f

将 v2 中包装的 32 位整数整数元素的下半部分转换为包装的双精度 (64-bit) 浮点元素,进行逐元素转换,并使用 writemask k 将结果存储在 dst 中 (当相应的 mask 位为 src 时,会复制这些元素未设置)。

_mm512_mask_cvtepi64_epi8Experimentalavx512f

将 a 中的包装的 64 位整数转换为带有截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi64_epi16Experimentalavx512f

将 a 中的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi64_epi32Experimentalavx512f

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepi64_storeu_epi8Experimentalavx512f

将 a 中包装的 64 位整数转换为包装的 8 位整数并截断,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

_mm512_mask_cvtepi64_storeu_epi16Experimentalavx512f

将 a 中的包装的 64 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtepi64_storeu_epi32Experimentalavx512f

将 a 中的包装的 64 位整数转换为带截断的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtepu8_epi16Experimentalavx512bw

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepu8_epi32Experimentalavx512f

将 a 中的包装无符号 8 位整数零扩展为包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepu8_epi64Experimentalavx512f

将 a 的低 8 个字节中的包装无符号 8 位整数零扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepu16_epi32Experimentalavx512f

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepu16_epi64Experimentalavx512f

将 a 中的包装无符号 16 位整数零扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepu32_epi64Experimentalavx512f

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtepu32_pdExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtepu32_psExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtepu32lo_pdExperimentalavx512f

将 v2 中 32 位无符号整数元素的下半部分转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中,使用 writemask k (当相应的 mask 位为 src 时,复制这些元素) 未设置)。

_mm512_mask_cvtne2ps_pbhExperimentalavx512bf16,avx512f

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 writemask k 将结果存储在单个 vector dst 中 (当对应的掩码位为没有设置)。

_mm512_mask_cvtneps_pbhExperimentalavx512bf16,avx512f

将包装在 a 中的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm512_mask_cvtpd_epi32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtpd_epu32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtpd_psExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtpd_psloExperimentalavx512f

将 v2 中的包装的双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,将其逐个元素转换,并使用 writemask k 将它们存储在 dst 中 (如果没有相应的 mask 位,则从 src 复制元素放)。元素存储在结果 vector 的下半部分中,而其余的上半部分位置设置为 0。

_mm512_mask_cvtph_psExperimentalavx512f

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtps_epi32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtps_epu32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtps_pdExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtps_phExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvtpslo_pdExperimentalavx512f

将 v2 中包装的单精度 (32-bit) 浮点元素的下半部分转换为包装的双精度 (64-bit) 浮点元素的下半部分进行逐元素转换,并使用写掩码 k 将结果存储在 dst 中 (当相应的屏蔽位未设置)。

_mm512_mask_cvtsepi16_epi8Experimentalavx512bw

将 a 中的包装带符号的 16 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtsepi16_storeu_epi8Experimentalavx512bw

将包装在 a 中的有符号 16 位整数转换为有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtsepi32_epi8Experimentalavx512f

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtsepi32_epi16Experimentalavx512f

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtsepi32_storeu_epi8Experimentalavx512f

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtsepi32_storeu_epi16Experimentalavx512f

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtsepi64_epi8Experimentalavx512f

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtsepi64_epi16Experimentalavx512f

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtsepi64_epi32Experimentalavx512f

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtsepi64_storeu_epi8Experimentalavx512f

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtsepi64_storeu_epi16Experimentalavx512f

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtsepi64_storeu_epi32Experimentalavx512f

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtt_roundpd_epi32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvtt_roundpd_epu32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvtt_roundps_epi32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvtt_roundps_epu32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_cvttpd_epi32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvttpd_epu32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvttps_epi32Experimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvttps_epu32Experimentalavx512f

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtusepi16_epi8Experimentalavx512bw

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtusepi16_storeu_epi8Experimentalavx512bw

将包装在 a 中的无符号 16 位整数转换为具有无符号饱和的包装的无符号 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtusepi32_epi8Experimentalavx512f

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_cvtusepi32_epi16Experimentalavx512f

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtusepi32_storeu_epi8Experimentalavx512f

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtusepi32_storeu_epi16Experimentalavx512f

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtusepi64_epi8Experimentalavx512f

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_cvtusepi64_epi16Experimentalavx512f

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_cvtusepi64_epi32Experimentalavx512f

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_cvtusepi64_storeu_epi8Experimentalavx512f

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

_mm512_mask_cvtusepi64_storeu_epi16Experimentalavx512f

将包装在 a 中的无符号 64 位整数转换为具有无符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_cvtusepi64_storeu_epi32Experimentalavx512f

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm512_mask_dbsad_epu8Experimentalavx512bw

计算 a 中的无符号 8 位整数与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并使用写掩码 k 将 16 位结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。对于每个 64 位通道,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中通道的低 8 位四元组,而后两个 SAD 使用 a 中通道的较高 8 位四元组。根据 imm8 中的控件,从 128 位通道中选择 b 中的四元组,并且每个 64 位通道中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm512_mask_div_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_div_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_div_round_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_div_round_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_dpbf16_psExperimentalavx512bf16,avx512f

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间的单精度 (32-bit) 浮点元素与 src 中的元素相加,并使用 writemask k 将结果存储在 dst 中 (当对应的元素从 src 复制时掩码位未设置)。

_mm512_mask_dpbusd_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (未设置相应掩码位时从 src 复制元素)。

_mm512_mask_dpbusds_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_dpwssd_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm512_mask_dpwssds_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm512_mask_expand_epi8Experimentalavx512vbmi2

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_expand_epi16Experimentalavx512vbmi2

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_expand_epi32Experimentalavx512f

从 a 加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_expand_epi64Experimentalavx512f

从 a 加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_expand_pdExperimentalavx512f

从 a 加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_expand_psExperimentalavx512f

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm512_mask_extractf32x4_psExperimentalavx512f

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 src 复制元素)。

_mm512_mask_extractf64x4_pdExperimentalavx512f

从 a 提取 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成),并用 imm8 进行选择,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_extracti32x4_epi32Experimentalavx512f

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM2 选中,用 writemask k 将结果存入 dst 中 (未设置相应掩码位时从 src 复制元素)。

_mm512_mask_extracti64x4_epi64Experimentalavx512f

从 a 中提取 256 位 (由 4 个包装的 64 位整数组成),用 IMM1 选中,用 writemask k 将结果存入 dst (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_fixupimm_pdExperimentalavx512f

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm512_mask_fixupimm_psExperimentalavx512f

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm512_mask_fixupimm_round_pdExperimentalavx512f

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm512_mask_fixupimm_round_psExperimentalavx512f

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm512_mask_fmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm512_mask_fmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 a 复制元素)。

_mm512_mask_fmadd_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm512_mask_fmadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 a 复制元素)。

_mm512_mask_fmaddsub_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 中复制元素放)。

_mm512_mask_fmaddsub_psExperimentalavx512f

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位则从 a 复制元素放)。

_mm512_mask_fmaddsub_round_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 中复制元素放)。

_mm512_mask_fmaddsub_round_psExperimentalavx512f

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位则从 a 复制元素放)。

_mm512_mask_fmsub_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 a 复制元素)。

_mm512_mask_fmsub_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm512_mask_fmsub_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 a 复制元素)。

_mm512_mask_fmsub_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm512_mask_fmsubadd_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的掩码位时,元素将从 a 复制放)。

_mm512_mask_fmsubadd_psExperimentalavx512f

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 复制元素放)。

_mm512_mask_fmsubadd_round_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的掩码位时,元素将从 a 复制放)。

_mm512_mask_fmsubadd_round_psExperimentalavx512f

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 复制元素放)。

_mm512_mask_fnmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm512_mask_fnmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm512_mask_fnmadd_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm512_mask_fnmadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm512_mask_fnmsub_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm512_mask_fnmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm512_mask_fnmsub_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm512_mask_fnmsub_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm512_mask_getexp_pdExperimentalavx512f

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当相应的 mask 时,元素从 src 复制位未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm512_mask_getexp_psExperimentalavx512f

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当相应的 mask 时,元素从 src 复制位未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm512_mask_getexp_round_pdExperimentalavx512f

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当相应的 mask 时,元素从 src 复制位未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_getexp_round_psExperimentalavx512f

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当相应的 mask 时,元素从 src 复制位未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_getmant_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm512_mask_getmant_psExperimentalavx512f

标准化 a 中包装的单精度 (32-bit) 浮点元素的尾数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm512_mask_getmant_round_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_getmant_round_psExperimentalavx512f

标准化 a 中包装的单精度 (32-bit) 浮点元素的尾数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_mask_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_mask_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512f

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm512_mask_i32gather_epi32Experimentalavx512f

使用 32 位索引从内存中收集 32 位整数。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引均按比例因子进行缩放)。使用 writemask k 将收集到的元素合并到 dst (当相应的掩码位未设置时,从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i32gather_epi64Experimentalavx512f

使用 32 位索引从内存中收集 64 位整数。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引均按比例因子进行缩放)。使用 writemask k 将收集到的元素合并到 dst (当相应的掩码位未设置时,从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i32gather_pdExperimentalavx512f

使用 32 位索引从内存中收集双精度 (64-bit) 浮点元素。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引均按比例因子进行缩放)。使用 writemask k 将收集到的元素合并到 dst (当相应的掩码位未设置时,从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i32gather_psExperimentalavx512f

使用 32 位索引从内存中收集单精度 (32-bit) 浮点元素。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 32 位元素偏移 (每个索引均按比例因子进行缩放)。使用 writemask k 将收集到的元素合并到 dst (当相应的掩码位未设置时,从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i32scatter_epi32Experimentalavx512f

使用 32 位索引将 32 位整数从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引按比例因子缩放) 受掩码 k (当相应掩码位未设置时不存储元素) . 小数位数应为 1、2、4 或 8。

_mm512_mask_i32scatter_epi64Experimentalavx512f

使用 32 位索引将 64 位整数从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址中,并由 vindex 中的每个 32 位元素偏移 (每个索引按比例因子缩放) 受掩码 k (未设置相应掩码位时不存储元素) . 小数位数应为 1、2、4 或 8。

_mm512_mask_i32scatter_pdExperimentalavx512f

使用 32 位索引将双精度 (64-bit) 浮点元素从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址中,并由 vindex 中的每个 32 位元素偏移 (每个索引按比例因子缩放) 受掩码 k (未设置相应掩码位时不存储元素) . 小数位数应为 1、2、4 或 8。

_mm512_mask_i32scatter_psExperimentalavx512f

使用 32 位索引将单精度 (32-bit) 浮点元素从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 32 位元素偏移 (每个索引按比例因子缩放) 受掩码 k (当相应掩码位未设置时不存储元素) . 小数位数应为 1、2、4 或 8。

_mm512_mask_i64gather_epi32Experimentalavx512f

使用 64 位索引从内存中收集 32 位整数。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。使用 writemask k 将收集到的元素合并到 dst (当相应的掩码位未设置时,从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i64gather_epi64Experimentalavx512f

使用 64 位索引从内存中收集 64 位整数。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。使用 writemask k 将收集到的元素合并到 dst (当相应的掩码位未设置时,从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i64gather_pdExperimentalavx512f

使用 64 位索引从内存中收集双精度 (64-bit) 浮点元素。从 base_addr 开始的地址加载 64 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。使用 writemask k 将收集到的元素合并到 dst (当相应的掩码位未设置时,从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i64gather_psExperimentalavx512f

使用 64 位索引从内存中收集单精度 (32-bit) 浮点元素。从 base_addr 开始的地址加载 32 位元素,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放)。使用 writemask k 将收集到的元素合并到 dst (当相应的掩码位未设置时,从 src 复制元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i64scatter_epi32Experimentalavx512f

使用 64 位索引将 32 位整数从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放),且受掩码 k 限制 (未设置相应的掩码位时不存储元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_i64scatter_epi64Experimentalavx512f

使用 64 位索引将 64 位整数从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引按比例因子缩放) 受掩码 k (当相应掩码位未设置时不存储元素) . 小数位数应为 1、2、4 或 8。

_mm512_mask_i64scatter_pdExperimentalavx512f

使用 64 位索引将双精度 (64-bit) 浮点元素从 a 分散到内存中。64 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引按比例因子缩放) 受掩码 k (当相应掩码位未设置时不存储元素) . 小数位数应为 1、2、4 或 8。

_mm512_mask_i64scatter_psExperimentalavx512f

使用 64 位索引将单精度 (32-bit) 浮点元素从 a 分散到内存中。32 位元素存储在从 base_addr 开始的地址处,并由 vindex 中的每个 64 位元素偏移 (每个索引均按比例因子进行缩放),且受掩码 k 限制 (未设置相应的掩码位时不存储元素)。小数位数应为 1、2、4 或 8。

_mm512_mask_insertf32x4Experimentalavx512f

将 a 复制到 tmp,然后在 x00X 指定的位置将 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成) 插入 tmp。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_insertf64x4Experimentalavx512f

将 a 复制到 tmp,然后在 x00X 指定的位置将 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 插入 tmp。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_inserti32x4Experimentalavx512f

将 a 复制到 tmp,然后在 imm8 指定的位置,将 b 中的 128 位 (由 4 个包装的 32 位整数组成) 插入 tmp。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_inserti64x4Experimentalavx512f

将 a 复制到 tmp,然后在 imm8 指定的位置将 b 的 256 位 (由 4 个包装的 64 位整数组成) 插入 tmp。使用写掩码 k 将 tmp 存储到 dst (当未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_lzcnt_epi32Experimentalavx512cd

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_lzcnt_epi64Experimentalavx512cd

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_madd_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 writemask k 将结果打包到 dst (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_maddubs_epi16Experimentalavx512bw

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平相加相邻的中间带符号的 16 位整数对,并使用写掩码 k 将饱和结果包装到 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_max_round_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_max_round_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_min_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_min_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_min_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_min_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_min_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_min_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_min_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_min_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_min_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_min_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_min_round_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_min_round_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_mask_mov_epi8Experimentalavx512bw

使用写掩码 k 将包装的 8 位整数从 a 移到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mov_epi16Experimentalavx512bw

使用写掩码 k 将包装的 16 位整数从 a 移到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mov_epi32Experimentalavx512f

使用写掩码 k 将包装的 32 位整数从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mov_epi64Experimentalavx512f

使用写掩码 k 将包装的 64 位整数从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mov_pdExperimentalavx512f

使用写掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_mov_psExperimentalavx512f

使用写掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm512_mask_movedup_pdExperimentalavx512f

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_movehdup_psExperimentalavx512f

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_moveldup_psExperimentalavx512f

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_mul_epi32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低符号 32 位整数相乘,并使用写掩码 k 将有符号的 64 位结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_mul_epu32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用写掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_mul_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_mul_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_mul_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_mul_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_mulhi_epi16Experimentalavx512bw

将 a 和 b 中包装的带符号的 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_mulhi_epu16Experimentalavx512bw

将 a 和 b 中包装的无符号 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_mulhrs_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 writemask k 将位 [16:1] 存储到 dst (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_mullo_epi16Experimentalavx512bw

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用写掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_mullo_epi32Experimentalavx512f

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用写掩码 k 将中间整数的低 32 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_mullox_epi64Experimentalavx512f

将包装的 64 位整数 vectors a 和 b 中的元素相乘,使用写掩码 k 将结果的低 64 位存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm512_mask_multishift_epi64_epi8Experimentalavx512vbmi

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 writemask k (元素当相应的屏蔽位未设置时,从 src 复制)。

_mm512_mask_or_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_or_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_packs_epi16Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_packs_epi32Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_packus_epi16Experimentalavx512bw

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_packus_epi32Experimentalavx512bw

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_permute_pdExperimentalavx512f

使用 imm8 中的控件在 128 位通道内对双精度 (64-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_permute_psExperimentalavx512f

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_permutevar_epi32Experimentalavx512f

使用 idx 中的相应索引在跨通道中对 32 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。请注意,与使用 permutevar 名称的过去内联函数不同,该内联函数在 128 位通道上进行了重排。此内联函数与 _mm512_mask_permutexvar_epi32 相同,建议您使用该内联函数名称。

_mm512_mask_permutevar_pdExperimentalavx512f

使用 b 中的控件在 128 位通道内将 a 的双精度 (64-bit) 浮点元素进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_permutevar_psExperimentalavx512f

使用 b 中的控件在 128 位通道内将 a 的单精度 (32-bit) 浮点元素打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_permutex2var_epi8Experimentalavx512vbmi

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨通道打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm512_mask_permutex2var_epi16Experimentalavx512bw

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm512_mask_permutex2var_epi32Experimentalavx512f

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm512_mask_permutex2var_epi64Experimentalavx512f

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm512_mask_permutex2var_pdExperimentalavx512f

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm512_mask_permutex2var_psExperimentalavx512f

使用对应的选择器和 idx 中的索引在 a 和 b 中的通道上对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm512_mask_permutex_epi64Experimentalavx512f

使用 imm8 中的控件在 256 位通道内将 64 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_permutex_pdExperimentalavx512f

使用 imm8 中的控件在 256 位通道内对双精度 (64-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_permutexvar_epi8Experimentalavx512vbmi

使用 idx 中的相应索引在跨通道的 a 中打乱 8 位整数,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_permutexvar_epi16Experimentalavx512bw

使用 idx 中的相应索引在跨通道中对 16 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_permutexvar_epi32Experimentalavx512f

使用 idx 中的相应索引在跨通道中对 32 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_permutexvar_epi64Experimentalavx512f

使用 idx 中的相应索引在跨通道中随机排列 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_permutexvar_pdExperimentalavx512f

使用 idx 中的相应索引对跨通道中的双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_permutexvar_psExperimentalavx512f

使用 idx 中的相应索引对跨通道中的单精度 (32-bit) 浮点元素进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_popcnt_epi8Experimentalavx512bitalg

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_mask_popcnt_epi16Experimentalavx512bitalg

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_mask_popcnt_epi32Experimentalavx512vpopcntdq

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_mask_popcnt_epi64Experimentalavx512vpopcntdq

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm512_mask_rcp14_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。该近似值的最大相对误差小于 2^-14。

_mm512_mask_rcp14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。该近似值的最大相对误差小于 2^-14。

_mm512_mask_reduce_add_epi32Experimentalavx512f

使用掩码 k 通过加法来减少 a 中包装的 32 位整数。返回 a 中所有活动元素的总和。

_mm512_mask_reduce_add_epi64Experimentalavx512f

使用掩码 k 通过加法来减少 a 中包装的 64 位整数。返回 a 中所有活动元素的总和。

_mm512_mask_reduce_add_pdExperimentalavx512f

通过使用掩膜 k 加法来减少包装的双精度 (64-bit) 浮点元素。返回 a 中所有活动元素的总和。

_mm512_mask_reduce_add_psExperimentalavx512f

通过使用掩码 k 加法来减少包装的单精度 (32-bit) 浮点元素。返回 a 中所有活动元素的总和。

_mm512_mask_reduce_and_epi32Experimentalavx512f

使用掩码 k 按位与减少包装的 32 位整数。返回 a 中所有活动元素的按位与。

_mm512_mask_reduce_and_epi64Experimentalavx512f

使用掩码 k 通过加法来减少 a 中包装的 64 位整数。返回 a 中所有活动元素的总和。

_mm512_mask_reduce_max_epi32Experimentalavx512f

使用掩码 k 最多减少 a 中的包装有符号 32 位整数。返回 a 中所有活动元素的最大值。

_mm512_mask_reduce_max_epi64Experimentalavx512f

使用掩码 k 最大减少包装的带符号的 64 位整数。返回 a 中所有活动元素的最大值。

_mm512_mask_reduce_max_epu32Experimentalavx512f

使用掩码 k 最大减少包装的无符号 32 位整数。返回 a 中所有活动元素的最大值。

_mm512_mask_reduce_max_epu64Experimentalavx512f

使用掩码 k 最大减少包装的无符号 64 位整数。返回 a 中所有活动元素的最大值。

_mm512_mask_reduce_max_pdExperimentalavx512f

使用掩码 k 最多减少 a 中包装的双精度 (64-bit) 浮点元素。返回 a 中所有活动元素的最大值。

_mm512_mask_reduce_max_psExperimentalavx512f

最多使用掩码 k 减少包装后的单精度 (32-bit) 浮点元素。返回 a 中所有活动元素的最大值。

_mm512_mask_reduce_min_epi32Experimentalavx512f

使用掩码 k 最多减少 a 中的包装有符号 32 位整数。返回 a 中所有活动元素的最小值。

_mm512_mask_reduce_min_epi64Experimentalavx512f

使用掩码 k 最大减少包装的带符号的 64 位整数。返回 a 中所有活动元素的最小值。

_mm512_mask_reduce_min_epu32Experimentalavx512f

使用掩码 k 最大减少包装的无符号 32 位整数。返回 a 中所有活动元素的最小值。

_mm512_mask_reduce_min_epu64Experimentalavx512f

使用掩码 k 最大减少包装的带符号的 64 位整数。返回 a 中所有活动元素的最小值。

_mm512_mask_reduce_min_pdExperimentalavx512f

使用掩码 k 最多减少 a 中包装的双精度 (64-bit) 浮点元素。返回 a 中所有活动元素的最小值。

_mm512_mask_reduce_min_psExperimentalavx512f

最多使用掩码 k 减少包装后的单精度 (32-bit) 浮点元素。返回 a 中所有活动元素的最小值。

_mm512_mask_reduce_mul_epi32Experimentalavx512f

使用掩码 k 通过乘以减少 a 中包装的 32 位整数。返回 a 中所有活动元素的乘积。

_mm512_mask_reduce_mul_epi64Experimentalavx512f

使用掩码 k 通过乘以减少 a 中包装的 64 位整数。返回 a 中所有活动元素的乘积。

_mm512_mask_reduce_mul_pdExperimentalavx512f

使用掩码 k 通过乘以减少 a 中包装的双精度 (64-bit) 浮点元素。返回 a 中所有活动元素的乘积。

_mm512_mask_reduce_mul_psExperimentalavx512f

使用掩码 k 通过乘以减少 a 中包装的单精度 (32-bit) 浮点元素。返回 a 中所有活动元素的乘积。

_mm512_mask_reduce_or_epi32Experimentalavx512f

使用掩码 k 按位或减少包装的 32 位整数。返回 a 中所有活动元素的按位或。

_mm512_mask_reduce_or_epi64Experimentalavx512f

使用掩码 k 按位或减少包装的 64 位整数。返回 a 中所有活动元素的按位或。

_mm512_mask_rol_epi32Experimentalavx512f

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_rol_epi64Experimentalavx512f

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_rolv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向左旋转 b 对应元素 b 中指定的位数,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm512_mask_rolv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向左旋转 b 的对应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm512_mask_ror_epi32Experimentalavx512f

将 X 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_ror_epi64Experimentalavx512f

将 X 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_rorv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向右旋转 b 的对应元素中指定的位数,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm512_mask_rorv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm512_mask_roundscale_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_mask_roundscale_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_mask_roundscale_round_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_mask_roundscale_round_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_mask_rsqrt14_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm512_mask_rsqrt14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm512_mask_scalef_pdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_scalef_psExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_scalef_round_pdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_scalef_round_psExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_set1_epi8Experimentalavx512bw

使用写掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_set1_epi16Experimentalavx512bw

使用写掩码 k 向 dst 的所有元素广播 16 位整数 a (当未设置相应的掩码位时,从 src 复制元素)。

_mm512_mask_set1_epi32Experimentalavx512f

使用写掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_set1_epi64Experimentalavx512f

使用写掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_shldi_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 writemask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_shldi_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 writemask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_shldi_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 writemask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_shldv_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm512_mask_shldv_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm512_mask_shldv_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 复制)。

_mm512_mask_shrdi_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 writemask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_shrdi_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 writemask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm512_mask_shrdi_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 writemask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 src` 复制)。

_mm512_mask_shrdv_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm512_mask_shrdv_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm512_mask_shrdv_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm512_mask_shuffle_epi8Experimentalavx512bw

使用 b 中相应的 8 位元素中的控件在 128 位通道内对 a 中的 8 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_shuffle_epi32Experimentalavx512f

使用 imm8 中的控件将 128 位通道中的 32 位整数随机排列,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_shuffle_f32x4Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个单精度 (32-bit) 浮点元素组成) 混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_shuffle_f64x2Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成) 混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_shuffle_i32x4Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成) 重排,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_shuffle_i64x2Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成) 进行混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm512_mask_shuffle_pdExperimentalavx512f

使用 imm8 中的控件对 128 位通道中的双精度 (64-bit) 浮点元素进行混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_shuffle_psExperimentalavx512f

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_shufflehi_epi16Experimentalavx512bw

使用 imm8 中的控件在 a 的 128 位通道的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的高 64 位中,将 128 位通道的低 64 位从 a 复制到 dst,使用写掩码 k (当相应的掩码位不存在时,元素从 src 复制放)。

_mm512_mask_shufflelo_epi16Experimentalavx512bw

使用 imm8 中的控件在 a 的 128 位通道的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的低 64 位中,并使用写掩码 k 将 128 位通道的高 64 位从 a 复制到 dst (当未使用相应的掩码位时,元素从 src 复制) 放)。

_mm512_mask_sll_epi16Experimentalavx512bw

将包装的 16 位整数按计数左移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sll_epi32Experimentalavx512f

将包装的 32 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sll_epi64Experimentalavx512f

将包装的 64 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_slli_epi16Experimentalavx512bw

将包装的 16 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_slli_epi32Experimentalavx512f

将包装的 32 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_slli_epi64Experimentalavx512f

将包装的 64 位整数向左移动 imm8,同时向零移动,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sllv_epi16Experimentalavx512bw

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sllv_epi32Experimentalavx512f

将填充的 32 位整数向左移动计数中相应元素指定的数量,同时将其移位为零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sllv_epi64Experimentalavx512f

将填充的 64 位整数向左移动 count 中相应元素指定的数量,同时将其移位为零,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm512_mask_sqrt_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sqrt_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sqrt_round_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sqrt_round_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sra_epi16Experimentalavx512bw

将包装的 16 位整数按计数右移,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sra_epi32Experimentalavx512f

在移动符号位的同时右移计数包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sra_epi64Experimentalavx512f

在移动符号位的同时右移计数包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srai_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srai_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srai_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srav_epi16Experimentalavx512bw

将包装的 16 位整数右移 count 中相应元素指定的数量,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srav_epi32Experimentalavx512f

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srav_epi64Experimentalavx512f

在移入符号位的同时,将包装的 64 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srl_epi16Experimentalavx512bw

将包装的 16 位整数右移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srl_epi32Experimentalavx512f

将包装的 32 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srl_epi64Experimentalavx512f

将包装的 64 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srli_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srli_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srli_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srlv_epi16Experimentalavx512bw

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srlv_epi32Experimentalavx512f

向右移动包装的 32 位整数整数 (由 count 中相应元素指定的数量),同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_srlv_epi64Experimentalavx512f

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sub_epi8Experimentalavx512bw

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sub_epi16Experimentalavx512bw

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sub_epi32Experimentalavx512f

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sub_epi64Experimentalavx512f

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sub_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sub_psExperimentalavx512f

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sub_round_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_sub_round_psExperimentalavx512f

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_subs_epi8Experimentalavx512bw

使用饱和度将 b 中的包装 8 位整数减去 b 中的包装 8 位有符号整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_subs_epi16Experimentalavx512bw

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_subs_epu8Experimentalavx512bw

使用 a 饱和度将 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_subs_epu16Experimentalavx512bw

使用 a 饱和度从 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm512_mask_ternarylogic_epi32Experimentalavx512f

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 32 位整数中的每一位,使用 src、a 和 b 中的相应位形成 imm8 的 3 位索引,并使用 writemask 将 imm8 中该位的值写入 dst 中的相应位 k 在 32 位粒度 (当相应的掩码位未设置时,从 src 复制 32 位元素)。

_mm512_mask_ternarylogic_epi64Experimentalavx512f

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 64 位整数中的每一位,src、a 和 b 中的相应位用于形成 imm8 的 3 位索引,并使用 writemask 将 imm8 中该位的值写入 dst 中的相应位 k 在 64 位粒度 (当相应的掩码位未设置时,从 src 复制 64 位元素)。

_mm512_mask_test_epi8_maskExperimentalavx512bw

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm512_mask_test_epi16_maskExperimentalavx512bw

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm512_mask_test_epi32_maskExperimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm512_mask_test_epi64_maskExperimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm512_mask_testn_epi8_maskExperimentalavx512bw

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm512_mask_testn_epi16_maskExperimentalavx512bw

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm512_mask_testn_epi32_maskExperimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm512_mask_testn_epi64_maskExperimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm512_mask_unpackhi_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm512_mask_unpackhi_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm512_mask_unpackhi_epi32Experimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm512_mask_unpackhi_epi64Experimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_unpackhi_pdExperimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm512_mask_unpackhi_psExperimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm512_mask_unpacklo_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm512_mask_unpacklo_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm512_mask_unpacklo_epi32Experimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm512_mask_unpacklo_epi64Experimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_unpacklo_pdExperimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解包并交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm512_mask_unpacklo_psExperimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解包并交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm512_mask_xor_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_mask_xor_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm512_maskz_abs_epi8Experimentalavx512bw

计算 a 中包装的带符号的 8 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_abs_epi16Experimentalavx512bw

计算 a 中包装的带符号的 16 位整数的绝对值,并使用零掩码 k (将未设置相应掩码位的元素清零) 将无符号结果存储在 dst 中。

_mm512_maskz_abs_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_abs_epi64Experimentalavx512f

计算 a 中包装的带符号的 64 位整数的绝对值,并使用零掩码 k (将未设置相应掩码位的元素清零) 将无符号结果存储在 dst 中。

_mm512_maskz_add_epi8Experimentalavx512bw

在 a 和 b 中添加包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_epi16Experimentalavx512bw

将包装的 16 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_epi32Experimentalavx512f

将包装的 32 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_epi64Experimentalavx512f

在 a 和 b 中添加包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_round_pdExperimentalavx512f

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_add_round_psExperimentalavx512f

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_adds_epi8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_adds_epi16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_adds_epu8Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_adds_epu16Experimentalavx512bw

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_alignr_epi8Experimentalavx512bw

将 a 和 b 中的 16 字节块对连接成一个 32 字节的临时结果,将结果右移 imm8 字节,并使用零掩码 k 将低 16 字节存储在 dst 中 (当未使用相应的掩码位时元素清零) 放)。

_mm512_maskz_alignr_epi32Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 32 位元素,并使用零掩码 k 将低 64 字节 (16 个元素) 存储在 dst 中 (当未使用相应的掩码位时元素清零) 放)。

_mm512_maskz_alignr_epi64Experimentalavx512f

将 a 和 b 连接成一个 128 字节的立即结果,将结果右移 imm8 64 位元素,并使用零掩码 k 将低 64 字节 (8 个元素) 存储在 dst 中 (当未使用相应的掩码位时元素清零) 放)。

_mm512_maskz_and_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位与,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_and_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位与,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_andnot_epi32Experimentalavx512f

计算 a 中包装的 32 位整数的按位 NOT,然后计算 b 中的 AND,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_andnot_epi64Experimentalavx512f

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_avg_epu8Experimentalavx512bw

将 a 和 b 中包装的无符号 8 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_avg_epu16Experimentalavx512bw

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_broadcast_f32x4Experimentalavx512f

使用零掩码 k 将 4 个包装的单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_broadcast_f64x4Experimentalavx512f

使用零掩码 k 将 4 个包装的双精度 (64-bit) 浮点元素从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_broadcast_i32x4Experimentalavx512f

使用零掩码 k 将 4 的包装的 32 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_broadcast_i64x4Experimentalavx512f

使用零掩码 k 将 4 个包装的 64 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_broadcastb_epi8Experimentalavx512bw

使用零掩码 k 将低包装的 8 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_broadcastd_epi32Experimentalavx512f

使用零掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_broadcastq_epi64Experimentalavx512f

使用零掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_broadcastsd_pdExperimentalavx512f

使用零掩码 k 将低双精度 (64-bit) 浮点元素从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_broadcastss_psExperimentalavx512f

使用零掩码 k 将低单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_broadcastw_epi16Experimentalavx512bw

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_compress_epi8Experimentalavx512vbmi2

将 a 中的活动 8 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm512_maskz_compress_epi16Experimentalavx512vbmi2

将 a 中的活动 16 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm512_maskz_compress_epi32Experimentalavx512f

将活动的 32 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm512_maskz_compress_epi64Experimentalavx512f

将活动的 64 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm512_maskz_compress_pdExperimentalavx512f

将活动的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm512_maskz_compress_psExperimentalavx512f

将活动的单精度 (32-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm512_maskz_conflict_epi32Experimentalavx512cd

使用零掩码 k (在未设置相应的掩码位时将元素清零),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm512_maskz_conflict_epi64Experimentalavx512cd

使用零掩码 k (在未设置相应的掩码位时将元素清零),测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm512_maskz_cvt_roundepi32_psExperimentalavx512f

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k (未设置相应的掩码位时将元素清零) 将结果存储在 dst 中。

_mm512_maskz_cvt_roundepu32_psExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvt_roundpd_epi32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvt_roundpd_epu32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvt_roundpd_psExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvt_roundph_psExperimentalavx512f

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvt_roundps_epi32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvt_roundps_epu32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvt_roundps_pdExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvt_roundps_phExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvtepi8_epi16Experimentalavx512bw

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_cvtepi8_epi32Experimentalavx512f

使用符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi8_epi64Experimentalavx512f

符号将 a 的低 8 个字节中的包装 8 位整数扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi16_epi8Experimentalavx512bw

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi16_epi32Experimentalavx512f

符号将包装的 16 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_cvtepi16_epi64Experimentalavx512f

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi32_epi8Experimentalavx512f

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi32_epi16Experimentalavx512f

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi32_epi64Experimentalavx512f

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi32_pdExperimentalavx512f

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_cvtepi32_psExperimentalavx512f

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k (未设置相应的掩码位时将元素清零) 将结果存储在 dst 中。

_mm512_maskz_cvtepi64_epi8Experimentalavx512f

将带有 a 的包装的 64 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi64_epi16Experimentalavx512f

将带有 a 的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepi64_epi32Experimentalavx512f

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepu8_epi16Experimentalavx512bw

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_cvtepu8_epi32Experimentalavx512f

将 a 中的包装无符号 8 位整数零扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_cvtepu8_epi64Experimentalavx512f

将 a 的低 8 个字节中的包装无符号 8 位整数零扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_cvtepu16_epi32Experimentalavx512f

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_cvtepu16_epi64Experimentalavx512f

将 a 中的包装无符号 16 位整数零扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_cvtepu32_epi64Experimentalavx512f

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_cvtepu32_pdExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtepu32_psExperimentalavx512f

将 a 中的包装无符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtne2ps_pbhExperimentalavx512bf16,avx512f

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在单个 vector dst 中 (当对应的掩码位不存在时,元素归零放)。

_mm512_maskz_cvtneps_pbhExperimentalavx512bf16,avx512f

将包装的单精度 (32-bit) 浮点元素在 a 中转换为包装的 BF16 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_cvtpd_epi32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvtpd_epu32Experimentalavx512f

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvtpd_psExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvtph_psExperimentalavx512f

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvtps_epi32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvtps_epu32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvtps_pdExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_cvtps_phExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvtsepi16_epi8Experimentalavx512bw

将 a 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_cvtsepi32_epi8Experimentalavx512f

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_cvtsepi32_epi16Experimentalavx512f

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm512_maskz_cvtsepi64_epi8Experimentalavx512f

将 a 中的包装有符号 64 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_cvtsepi64_epi16Experimentalavx512f

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_cvtsepi64_epi32Experimentalavx512f

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_cvtt_roundpd_epi32Experimentalavx512f

将带有 a 的包装的单精度 (32-bit) 浮点元素转换为带有截断的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvtt_roundpd_epu32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvtt_roundps_epi32Experimentalavx512f

将带有 a 的包装的单精度 (32-bit) 浮点元素转换为带有截断的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvtt_roundps_epu32Experimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素转换为带有截断的包装无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_cvttpd_epi32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm512_maskz_cvttpd_epu32Experimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_cvttps_epi32Experimentalavx512f

将带有 a 的包装的单精度 (32-bit) 浮点元素转换为带有截断的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_cvttps_epu32Experimentalavx512f

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_cvtusepi16_epi8Experimentalavx512bw

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_cvtusepi32_epi8Experimentalavx512f

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_cvtusepi32_epi16Experimentalavx512f

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_cvtusepi64_epi8Experimentalavx512f

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_cvtusepi64_epi16Experimentalavx512f

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_cvtusepi64_epi32Experimentalavx512f

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_dbsad_epu8Experimentalavx512bw

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs) 的总和,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将 16 位结果存储在 dst 中。对于每个 64 位通道,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中通道的低 8 位四元组,而后两个 SAD 使用 a 中通道的较高 8 位四元组。根据 imm8 中的控件,从 128 位通道中选择 b 中的四元组,并且每个 64 位通道中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm512_maskz_div_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_div_psExperimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素除以 b 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_div_round_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_div_round_psExperimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素除以 b 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_dpbf16_psExperimentalavx512bf16,avx512f

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素进行累加,并将结果存储在 dst 中使用 zeromask k (当对应的掩码为位未设置)。

_mm512_maskz_dpbusd_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果使用 zeromask k 存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_dpbusds_epi32Experimentalavx512vnni

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数用带符号饱和求和,并将包装的 32 位结果用 zeromask k 存储在 dst 中 (当对应的掩码位未设置时,元素被清零)。

_mm512_maskz_dpwssd_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_dpwssds_epi32Experimentalavx512vnni

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_expand_epi8Experimentalavx512vbmi2

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_expand_epi16Experimentalavx512vbmi2

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_expand_epi32Experimentalavx512f

从 a 中加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_expand_epi64Experimentalavx512f

从 a 中加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_expand_pdExperimentalavx512f

从 a 中加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_expand_psExperimentalavx512f

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_extractf32x4_psExperimentalavx512f

从 a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 进行选择,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_extractf64x4_pdExperimentalavx512f

从 a 提取 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成),并用 imm8 进行选择,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_extracti32x4_epi32Experimentalavx512f

从 a 中提取 128 位 (由 4 个包装的 32 位整数组成),用 IMM2 选择,结果用 zeromask k 存储在 dst 中 (当相应的掩码位未设置时,元素归零)。

_mm512_maskz_extracti64x4_epi64Experimentalavx512f

从 a 中提取 256 位 (由 4 个包装的 64 位整数组成),用 IMM1 选择,结果用 zeromask k 存储在 dst 中 (当相应的掩码位未设置时,元素归零)。

_mm512_maskz_fixupimm_pdExperimentalavx512f

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。imm8 用于设置所需的标志报告。

_mm512_maskz_fixupimm_psExperimentalavx512f

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。imm8 用于设置所需的标志报告。

_mm512_maskz_fixupimm_round_pdExperimentalavx512f

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。imm8 用于设置所需的标志报告。

_mm512_maskz_fixupimm_round_psExperimentalavx512f

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。imm8 用于设置所需的标志报告。

_mm512_maskz_fmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_fmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_fmadd_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_fmadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并将结果存储在使用零掩码 k 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_fmaddsub_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_fmaddsub_psExperimentalavx512f

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_fmaddsub_round_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_fmaddsub_round_psExperimentalavx512f

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_fmsub_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmsub_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmsub_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fmsubadd_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_fmsubadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,或者将 C from/to 中的包装元素相减并相加,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_fmsubadd_round_pdExperimentalavx512f

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_fmsubadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,或者将 C from/to 中的包装元素相减并相加,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_fnmadd_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fnmadd_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_fnmadd_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fnmadd_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_fnmsub_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fnmsub_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fnmsub_round_pdExperimentalavx512f

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_fnmsub_round_psExperimentalavx512f

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_getexp_pdExperimentalavx512f

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当相应的 mask 位为零时,元素被清零未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm512_maskz_getexp_psExperimentalavx512f

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为代表整数指数的单精度 (32-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当相应的 mask 位为零时,元素被清零未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm512_maskz_getexp_round_pdExperimentalavx512f

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当相应的 mask 位为零时,元素被清零未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_getexp_round_psExperimentalavx512f

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为代表整数指数的单精度 (32-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当相应的 mask 位为零时,元素被清零未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_getmant_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm512_maskz_getmant_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数规格化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm512_maskz_getmant_round_pdExperimentalavx512f

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_getmant_round_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数规格化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_maskz_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512f

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm512_maskz_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512f

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm512_maskz_insertf32x4Experimentalavx512f

将 a 复制到 tmp,然后在 x00X 指定的位置将 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成) 插入 tmp。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm512_maskz_insertf64x4Experimentalavx512f

将 a 复制到 tmp,然后在 x00X 指定的位置将 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 插入 tmp。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm512_maskz_inserti32x4Experimentalavx512f

将 a 复制到 tmp,然后在 imm8 指定的位置,将 b 中的 128 位 (由 4 个包装的 32 位整数组成) 插入 tmp。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm512_maskz_inserti64x4Experimentalavx512f

将 a 复制到 tmp,然后在 imm8 指定的位置将 b 的 256 位 (由 4 个包装的 64 位整数组成) 插入 tmp。使用 zeromask k 将 tmp 存储到 dst (当未设置相应的掩码位时,元素会被清零)。

_mm512_maskz_lzcnt_epi32Experimentalavx512cd

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_lzcnt_epi64Experimentalavx512cd

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_madd_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 zeromask k 将结果打包到 dst (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_maddubs_epi16Experimentalavx512bw

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平添加相邻的中间有符号 16 位整数对,并使用 zeromask k 将饱和结果打包到 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_max_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm512_maskz_max_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm512_maskz_max_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm512_maskz_max_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_max_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm512_maskz_max_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm512_maskz_max_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm512_maskz_max_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm512_maskz_max_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm512_maskz_max_psExperimentalavx512f

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm512_maskz_max_round_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_max_round_psExperimentalavx512f

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_min_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm512_maskz_min_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm512_maskz_min_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm512_maskz_min_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm512_maskz_min_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm512_maskz_min_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm512_maskz_min_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm512_maskz_min_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm512_maskz_min_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm512_maskz_min_psExperimentalavx512f

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm512_maskz_min_round_pdExperimentalavx512f

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_min_round_psExperimentalavx512f

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_maskz_mov_epi8Experimentalavx512bw

使用零掩码 k 将包装的 8 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_mov_epi16Experimentalavx512bw

使用零掩码 k 将包装的 16 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_mov_epi32Experimentalavx512f

使用零掩码 k 将包装的 32 位整数从 a 移至 dst (未设置相应的掩码位时将元素清零)。

_mm512_maskz_mov_epi64Experimentalavx512f

使用零掩码 k 将包装的 64 位整数从 a 移到 dst (未设置相应的掩码位时,元素将清零)。

_mm512_maskz_mov_pdExperimentalavx512f

使用零掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移到 dst (未设置相应的掩码位时将元素清零)。

_mm512_maskz_mov_psExperimentalavx512f

使用零掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移到 dst (未设置相应的掩码位时将元素清零)。

_mm512_maskz_movedup_pdExperimentalavx512f

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_movehdup_psExperimentalavx512f

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_moveldup_psExperimentalavx512f

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mul_epi32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低位有符号 32 位整数相乘,并使用零掩码 k 将有符号的 64 位结果存储在 dst 中 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_mul_epu32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用零掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_mul_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mul_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mul_round_pdExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mul_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_mulhi_epi16Experimentalavx512bw

将 a 和 b 中包装的带符号的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_mulhi_epu16Experimentalavx512bw

将 a 和 b 中包装的无符号 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_mulhrs_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 zeromask k 将位 [16:1] 存储到 dst (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_mullo_epi16Experimentalavx512bw

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_mullo_epi32Experimentalavx512f

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将中间整数的低 32 位存储在 dst 中。

_mm512_maskz_multishift_epi64_epi8Experimentalavx512vbmi

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 zeromask k (元素当相应的屏蔽位未设置时被清零)。

_mm512_maskz_or_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_or_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_packs_epi16Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_packs_epi32Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_packus_epi16Experimentalavx512bw

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_packus_epi32Experimentalavx512bw

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_permute_pdExperimentalavx512f

使用 imm8 中的控件在 128 位通道内对双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permute_psExperimentalavx512f

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutevar_pdExperimentalavx512f

使用 b 中的控件在 128 位通道内将 a 中的双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutevar_psExperimentalavx512f

使用 b 中的控件在 128 位通道内将 a 的单精度 (32-bit) 浮点元素打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_permutex2var_epi8Experimentalavx512vbmi

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨通道打乱,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_permutex2var_epi16Experimentalavx512bw

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutex2var_epi32Experimentalavx512f

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 32 位整数进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutex2var_epi64Experimentalavx512f

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 64 位整数进行混洗,并使用 zeromask k (未设置相应的 mask 位时将元素清零) 将结果存储在 dst 中。

_mm512_maskz_permutex2var_pdExperimentalavx512f

使用对应的选择器和 idx 中的索引在通道中的通道 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutex2var_psExperimentalavx512f

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_permutex_epi64Experimentalavx512f

使用 imm8 中的控件在 256 位通道内将 64 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutex_pdExperimentalavx512f

使用 imm8 中的控件在 256 位通道内将双精度 (64-bit) 浮点元素打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_permutexvar_epi8Experimentalavx512vbmi

使用 idx 中的相应索引在跨通道的 a 中打乱 8 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_permutexvar_epi16Experimentalavx512bw

使用 idx 中的相应索引在跨通道中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutexvar_epi32Experimentalavx512f

使用 idx 中的相应索引在跨通道中对 32 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutexvar_epi64Experimentalavx512f

使用 idx 中的相应索引在跨通道中对 64 位整数进行打乱,并使用零掩码 k (未设置相应的掩码位时将元素清零) 将结果存储在 dst 中。

_mm512_maskz_permutexvar_pdExperimentalavx512f

使用 idx 中的相应索引在跨通道中对双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_permutexvar_psExperimentalavx512f

使用 idx 中的相应索引在跨通道中对单精度 (32-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_popcnt_epi8Experimentalavx512bitalg

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_maskz_popcnt_epi16Experimentalavx512bitalg

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_maskz_popcnt_epi32Experimentalavx512vpopcntdq

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_maskz_popcnt_epi64Experimentalavx512vpopcntdq

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm512_maskz_rcp14_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。该近似值的最大相对误差小于 2^-14。

_mm512_maskz_rcp14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm512_maskz_rol_epi32Experimentalavx512f

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_rol_epi64Experimentalavx512f

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_rolv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_rolv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_ror_epi32Experimentalavx512f

将 X 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_ror_epi64Experimentalavx512f

将 X 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm512_maskz_rorv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_rorv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm512_maskz_roundscale_pdExperimentalavx512f

将 x 中的包装双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_maskz_roundscale_psExperimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_maskz_roundscale_round_pdExperimentalavx512f

将 x 中的包装双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_maskz_roundscale_round_psExperimentalavx512f

将 a 中的包装单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_maskz_rsqrt14_pdExperimentalavx512f

计算 a 中的包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm512_maskz_rsqrt14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。该近似值的最大相对误差小于 2^-14。

_mm512_maskz_scalef_pdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_scalef_psExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_scalef_round_pdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_scalef_round_psExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_set1_epi8Experimentalavx512bw

使用零掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_set1_epi16Experimentalavx512bw

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_set1_epi32Experimentalavx512f

使用零掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_set1_epi64Experimentalavx512f

使用零掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm512_maskz_shldi_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shldi_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shldi_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shldv_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shldv_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shldv_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shrdi_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shrdi_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shrdi_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shrdv_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shrdv_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shrdv_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shuffle_epi8Experimentalavx512bw

根据 b 的相应 8 位元素中的打乱控制掩码对 a 中的包装 8 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_shuffle_epi32Experimentalavx512f

使用 imm8 中的控件在 128 位通道中的 32 位整数中混洗 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shuffle_f32x4Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个单精度 (32-bit) 浮点元素组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_shuffle_f64x2Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_shuffle_i32x4Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_shuffle_i64x2Experimentalavx512f

将 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成) 混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_shuffle_pdExperimentalavx512f

使用 imm8 中的控件对 128 位通道内的双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shuffle_psExperimentalavx512f

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_shufflehi_epi16Experimentalavx512bw

使用 imm8 中的控件在 a 的 128 位通道的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的高 64 位中,将 128 位通道的低 64 位从 a 复制到 dst,使用 zeromask k (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_shufflelo_epi16Experimentalavx512bw

使用 imm8 中的控件在 a 的 128 位通道的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的低 64 位中,128 位通道的高 64 位从 a 复制到 dst,使用 zeromask k (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_sll_epi16Experimentalavx512bw

将包装的 16 位整数按计数左移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sll_epi32Experimentalavx512f

将包装的 32 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sll_epi64Experimentalavx512f

将填充的 64 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_slli_epi16Experimentalavx512bw

将包装的 16 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_slli_epi32Experimentalavx512f

将包装的 32 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_slli_epi64Experimentalavx512f

将包装的 64 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sllv_epi16Experimentalavx512bw

将包装的 16 位整数左移由 count 中的相应元素指定的数量,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sllv_epi32Experimentalavx512f

在将移位的 32 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sllv_epi64Experimentalavx512f

在将移位的 64 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sqrt_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用零掩码 k (将结果置零,当未设置相应的掩码位时将元素清零) 将结果存储在 dst 中。

_mm512_maskz_sqrt_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sqrt_round_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用零掩码 k (将结果置零,当未设置相应的掩码位时将元素清零) 将结果存储在 dst 中。

_mm512_maskz_sqrt_round_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sra_epi16Experimentalavx512bw

将包装的 16 位整数按计数右移,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sra_epi32Experimentalavx512f

在移动符号位的同时右移计数包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sra_epi64Experimentalavx512f

在移动符号位的同时右移计数包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srai_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srai_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_srai_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srav_epi16Experimentalavx512bw

将包装的 16 位整数右移由 count 中的相应元素指定的数量,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srav_epi32Experimentalavx512f

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srav_epi64Experimentalavx512f

在移入符号位的同时,将包装的 64 位整数右移由 count 中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srl_epi16Experimentalavx512bw

将包装的 16 位整数右移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srl_epi32Experimentalavx512f

将移位的 32 位整数右移,同时移零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srl_epi64Experimentalavx512f

将包装的 64 位整数右移计数,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm512_maskz_srli_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srli_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srli_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srlv_epi16Experimentalavx512bw

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srlv_epi32Experimentalavx512f

向右移动已包装的 32 位整数,偏移量为相应元素在计数中指定的数量,同时向零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_srlv_epi64Experimentalavx512f

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时移位为零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_sub_epi8Experimentalavx512bw

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_sub_epi16Experimentalavx512bw

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_sub_epi32Experimentalavx512f

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_sub_epi64Experimentalavx512f

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_psExperimentalavx512f

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_round_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_sub_round_psExperimentalavx512f

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_subs_epi8Experimentalavx512bw

使用饱和度从包装的 8 位整数中减去 b 中的包装有符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_subs_epi16Experimentalavx512bw

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_subs_epu8Experimentalavx512bw

使用 a 饱和度从 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_subs_epu16Experimentalavx512bw

使用 a 饱和度将 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_ternarylogic_epi32Experimentalavx512f

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 32 位整数中的每一位,来自 a、b 和 c 的相应位用于形成 imm8 的 3 位索引,并使用零掩码将 imm8 中该位的值写入 dst 中的相应位 k 在 32 位粒度 (当未设置相应的掩码位时,32 位元素被清零)。

_mm512_maskz_ternarylogic_epi64Experimentalavx512f

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 64 位整数中的每一位,来自 a、b 和 c 的相应位用于在 imm8 中形成 3 位索引,并使用零掩码将 imm8 中该位的值写入 dst 中的相应位 k 在 64 位粒度 (当未设置相应的掩码位时,64 位元素将被清零)。

_mm512_maskz_unpackhi_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_unpackhi_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_unpackhi_epi32Experimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_unpackhi_epi64Experimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_unpackhi_pdExperimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_unpackhi_psExperimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_unpacklo_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_unpacklo_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_unpacklo_epi32Experimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_unpacklo_epi64Experimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm512_maskz_unpacklo_pdExperimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_unpacklo_psExperimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm512_maskz_xor_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_maskz_xor_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm512_max_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号 32 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最大值存储在 dst 中。

_mm512_max_pdExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,并将包装的最大值存储在 dst 中。

_mm512_max_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将包装的最大值存储在 dst 中。

_mm512_max_round_pdExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,并将包装的最大值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_max_round_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将包装的最大值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_min_epi8Experimentalavx512bw

比较 a 和 b 中包装的带符号的 8 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epi16Experimentalavx512bw

比较 a 和 b 中包装的带符号的 16 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epi32Experimentalavx512f

比较 a 和 b 中包装的带符号 32 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epi64Experimentalavx512f

比较 a 和 b 中包装的带符号的 64 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epu8Experimentalavx512bw

比较 a 和 b 中包装的无符号 8 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epu16Experimentalavx512bw

比较 a 和 b 中包装的无符号 16 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epu32Experimentalavx512f

比较 a 和 b 中包装的无符号 32 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_epu64Experimentalavx512f

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最小值存储在 dst 中。

_mm512_min_pdExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,并将包装的最小值存储在 dst 中。 比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,并将包装的最小值存储在 dst 中。

_mm512_min_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将包装的最小值存储在 dst 中。

_mm512_min_round_pdExperimentalavx512f

比较 a 和 b 中包装的双精度 (64-bit) 浮点元素,并将包装的最小值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_min_round_psExperimentalavx512f

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将包装的最小值存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm512_movedup_pdExperimentalavx512f

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_movehdup_psExperimentalavx512f

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_moveldup_psExperimentalavx512f

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_movepi8_maskExperimentalavx512bw

根据 a 中相应包装的 8 位整数的最高有效位设置掩码寄存器 k 的每个位。

_mm512_movepi16_maskExperimentalavx512bw

根据 a 中相应的包装的 16 位整数的最高有效位设置掩码寄存器 k 的每一位。

_mm512_movm_epi8Experimentalavx512bw

根据 k 中相应位的值,将 dst 中每个包装的 8 位整数设置为全 1 或全 0。

_mm512_movm_epi16Experimentalavx512bw

根据 k 中相应位的值,将 dst 中每个包装的 16 位整数设置为全 1 或全 0。

_mm512_mul_epi32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低符号 32 位整数相乘,并将带符号的 64 位结果存储在 dst 中。

_mm512_mul_epu32Experimentalavx512f

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并将无符号 64 位结果存储在 dst 中。

_mm512_mul_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并将结果存储在 dst 中。

_mm512_mul_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并将结果存储在 dst 中。

_mm512_mul_round_pdExperimentalavx512f

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并将结果存储在 dst 中。

_mm512_mul_round_psExperimentalavx512f

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并将结果存储在 dst 中。

_mm512_mulhi_epi16Experimentalavx512bw

将包装的带符号的 16 位整数与 a 和 b 相乘,生成中间的 32 位整数,并将中间整数的高 16 位存储在 dst 中。

_mm512_mulhi_epu16Experimentalavx512bw

将包装的无符号 16 位整数与 a 和 b 相乘,生成中间的 32 位整数,并将中间整数的高 16 位存储在 dst 中。

_mm512_mulhrs_epi16Experimentalavx512bw

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,加 1 舍入,然后将 [16: 1] 位存储到 dst。

_mm512_mullo_epi16Experimentalavx512bw

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并将中间整数的低 16 位存储在 dst 中。

_mm512_mullo_epi32Experimentalavx512f

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并将中间整数的低 32 位存储在 dst 中。

_mm512_mullox_epi64Experimentalavx512f

将包装的 64 位整数 vectors a 和 b 中的元素相乘,将结果的低 64 位存储在 dst 中。

_mm512_multishift_epi64_epi8Experimentalavx512vbmi

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并将 8 个组装字节存储到 dst 的相应 64 位元素。

_mm512_or_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位或,并将结果存储在 dst 中。

_mm512_or_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位或,并将结果存储在 dst 中。

_mm512_or_si512Experimentalavx512f

计算 a 和 b 中 512 位 (代表整数数据) 的按位或,并将结果存储在 dst 中。

_mm512_packs_epi16Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并将结果存储在 dst 中。

_mm512_packs_epi32Experimentalavx512bw

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并将结果存储在 dst 中。

_mm512_packus_epi16Experimentalavx512bw

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并将结果存储在 dst 中。

_mm512_packus_epi32Experimentalavx512bw

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并将结果存储在 dst 中。

_mm512_permute_pdExperimentalavx512f

使用 imm8 中的控件在 128 位通道内对双精度 (64-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_permute_psExperimentalavx512f

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_permutevar_epi32Experimentalavx512f

使用 idx 中的相应索引在跨通道中随机排列 32 位整数,并将结果存储在 dst 中。请注意,与使用 permutevar 名称的过去内联函数不同,该内联函数在 128 位通道上进行了重排。此内部函数与 _mm512_permutexvar_epi32 相同,建议您使用该内部函数名称。

_mm512_permutevar_pdExperimentalavx512f

使用 b 中的控件在 128 位通道内将 a 双精度 (64-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_permutevar_psExperimentalavx512f

使用 b 中的控件在 128 位通道内将 a 单精度 (32-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_permutex2var_epi8Experimentalavx512vbmi

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨通道打乱,并将结果存储在 dst 中。

_mm512_permutex2var_epi16Experimentalavx512bw

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm512_permutex2var_epi32Experimentalavx512f

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中随机排列 32 位整数,并将结果存储在 dst 中。

_mm512_permutex2var_epi64Experimentalavx512f

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中随机排列 64 位整数,并将结果存储在 dst 中。

_mm512_permutex2var_pdExperimentalavx512f

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm512_permutex2var_psExperimentalavx512f

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm512_permutex_epi64Experimentalavx512f

使用 imm8 中的控件在 256 位通道中的 a 内随机排列 64 位整数,并将结果存储在 dst 中。

_mm512_permutex_pdExperimentalavx512f

使用 imm8 中的控件在 256 位通道内对双精度 (64-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_permutexvar_epi8Experimentalavx512vbmi

使用 idx 中的相应索引将 a 中的 8 位整数打乱到通道中,并将结果存储在 dst 中。

_mm512_permutexvar_epi16Experimentalavx512bw

使用 idx 中的相应索引在跨通道中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm512_permutexvar_epi32Experimentalavx512f

使用 idx 中的相应索引在跨通道中随机排列 32 位整数,并将结果存储在 dst 中。

_mm512_permutexvar_epi64Experimentalavx512f

使用 idx 中的相应索引在跨通道中随机排列 64 位整数,并将结果存储在 dst 中。

_mm512_permutexvar_pdExperimentalavx512f

使用 idx 中的相应索引在跨通道中对双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm512_permutexvar_psExperimentalavx512f

使用 idx 中的相应索引对跨通道中的单精度 (32-bit) 浮点元素进行打乱。

_mm512_popcnt_epi8Experimentalavx512bitalg

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_popcnt_epi16Experimentalavx512bitalg

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_popcnt_epi32Experimentalavx512vpopcntdq

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm512_popcnt_epi64Experimentalavx512vpopcntdq

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm512_rcp14_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm512_rcp14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm512_reduce_add_epi32Experimentalavx512f

通过加法减少包装的 32 位整数。返回 a 中所有元素的总和。

_mm512_reduce_add_epi64Experimentalavx512f

通过加法减少包装的 64 位整数。返回 a 中所有元素的总和。

_mm512_reduce_add_pdExperimentalavx512f

另外,还减少了包装的双精度 (64-bit) 浮点元素。返回 a 中所有元素的总和。

_mm512_reduce_add_psExperimentalavx512f

此外,还减少了包装的单精度 (32-bit) 浮点元素。返回 a 中所有元素的总和。

_mm512_reduce_and_epi32Experimentalavx512f

通过按位 AND 减少包装的 32 位整数。返回 a 中所有元素的按位与。

_mm512_reduce_and_epi64Experimentalavx512f

通过按位 AND 减少包装的 64 位整数。返回 a 中所有元素的按位与。

_mm512_reduce_max_epi32Experimentalavx512f

最多减少包装的带符号 32 位整数。返回 a 中所有元素的最大值。

_mm512_reduce_max_epi64Experimentalavx512f

最大减少包装的带符号的 64 位整数。返回 a 中所有元素的最大值。

_mm512_reduce_max_epu32Experimentalavx512f

最多减少包装的无符号 32 位整数。返回 a 中所有元素的最大值。

_mm512_reduce_max_epu64Experimentalavx512f

最多减少包装的无符号 64 位整数。返回 a 中所有元素的最大值。

_mm512_reduce_max_pdExperimentalavx512f

最大减少包装的双精度 (64-bit) 浮点元素。返回 a 中所有元素的最大值。

_mm512_reduce_max_psExperimentalavx512f

最大减少包装的单精度 (32-bit) 浮点元素。返回 a 中所有元素的最大值。

_mm512_reduce_min_epi32Experimentalavx512f

将包装的有符号的 32 位整数减少到最小值。返回 a 中所有元素的最小值。

_mm512_reduce_min_epi64Experimentalavx512f

将一个包装的有符号 64 位整数减少到最小值。返回 a 中所有元素的最小值。

_mm512_reduce_min_epu32Experimentalavx512f

将一个包装的无符号 32 位整数减少到最小值。返回 a 中所有元素的最小值。

_mm512_reduce_min_epu64Experimentalavx512f

将一个包装的无符号 64 位整数减少到最小。返回 a 中所有元素的最小值。

_mm512_reduce_min_pdExperimentalavx512f

将一个包装的双精度(64位)浮点元素减少到最小。返回 a 中所有元素的最小值。

_mm512_reduce_min_psExperimentalavx512f

将一个包装的单精度(32位)浮点元素减少到最小。返回 a 中所有元素的最小值。

_mm512_reduce_mul_epi32Experimentalavx512f

通过乘法减少包装的 32 位整数。返回 a 中所有元素的乘积。

_mm512_reduce_mul_epi64Experimentalavx512f

通过乘法减少包装的 64 位整数。返回 a 中所有元素的乘积。

_mm512_reduce_mul_pdExperimentalavx512f

通过乘法减少包装的双精度 (64-bit) 浮点元素。返回 a 中所有元素的乘积。

_mm512_reduce_mul_psExperimentalavx512f

通过乘法减少包装的单精度 (32-bit) 浮点元素。返回 a 中所有元素的乘积。

_mm512_reduce_or_epi32Experimentalavx512f

通过按位 OR 减少包装的 32 位整数。返回 a 中所有元素的按位或。

_mm512_reduce_or_epi64Experimentalavx512f

通过按位 OR 减少包装的 64 位整数。返回 a 中所有元素的按位或。

_mm512_rol_epi32Experimentalavx512f

将 X 中每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm512_rol_epi64Experimentalavx512f

将 X 中每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm512_rolv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm512_rolv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm512_ror_epi32Experimentalavx512f

将 X 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并将结果存储在 dst 中。

_mm512_ror_epi64Experimentalavx512f

将 X 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm512_rorv_epi32Experimentalavx512f

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm512_rorv_epi64Experimentalavx512f

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm512_roundscale_pdExperimentalavx512f

将 x 中的包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_roundscale_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,然后将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_roundscale_round_pdExperimentalavx512f

将 x 中的包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_roundscale_round_psExperimentalavx512f

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,然后将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm512_rsqrt14_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm512_rsqrt14_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm512_sad_epu8Experimentalavx512bw

计算 a 和 b 中包装的无符号 8 位整数的绝对差,然后将每个连续的 8 个差水平地求和以生成八个无符号的 16 位整数,并将这些无符号的 16 位整数包装在 64 位元素的低 16 位中在 dst。

_mm512_scalef_pdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_scalef_psExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_scalef_round_pdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_scalef_round_psExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_set1_epi8Experimentalavx512f

向 dst 的所有元素广播 8 位整数 a。

_mm512_set1_epi16Experimentalavx512f

将低包装的 16 位整数从 a 广播到 dst 的所有所有元素。

_mm512_set1_epi32Experimentalavx512f

dst 的所有元素广播 32 位整数 a

_mm512_set1_epi64Experimentalavx512f

dst 的所有元素广播 64 位整数 a

_mm512_set1_pdExperimentalavx512f

dst 的所有元素广播 64 位浮点数 a

_mm512_set1_psExperimentalavx512f

dst 的所有元素广播 32 位浮点数 a

_mm512_set4_epi32Experimentalavx512f

使用重复的 4 个元素序列在 dst 中设置包装的 32 位整数。

_mm512_set4_epi64Experimentalavx512f

使用重复的 4 个元素序列在 dst 中设置包装的 64 位整数。

_mm512_set4_pdExperimentalavx512f

使用重复的 4 个元素序列在 dst 中设置包装的双精度 (64-bit) 浮点元素。

_mm512_set4_psExperimentalavx512f

使用重复的 4 个元素序列在 dst 中设置包装的单精度 (32-bit) 浮点元素。

_mm512_set_epi8Experimentalavx512f

使用提供的值在 dst 中设置包装的 8 位整数。

_mm512_set_epi16Experimentalavx512f

使用提供的值在 dst 中设置包装的 16 位整数。

_mm512_set_epi32Experimentalavx512f

使用提供的值在 dst 中设置包装的 32 位整数。

_mm512_set_epi64Experimentalavx512f

使用提供的值在 dst 中设置包装的 64 位整数。

_mm512_set_pdExperimentalavx512f

使用提供的值在 dst 中设置包装的双精度 (64-bit) 浮点元素。

_mm512_set_psExperimentalavx512f

使用提供的值在 dst 中设置包装的 32 位整数。

_mm512_setr4_epi32Experimentalavx512f

在 dst 中设置包装的 32 位整数,并以相反的顺序重复 4 个元素序列。

_mm512_setr4_epi64Experimentalavx512f

在 dst 中设置包装的 64 位整数,并以相反的顺序重复 4 个元素序列。

_mm512_setr4_pdExperimentalavx512f

在 dst 中设置包装的双精度 (64-bit) 浮点元素,并以相反的顺序重复 4 个元素序列。

_mm512_setr4_psExperimentalavx512f

在 dst 中设置包装的单精度 (32-bit) 浮点元素,并以相反的顺序重复 4 个元素。

_mm512_setr_epi32Experimentalavx512f

dst 中设置包装的 32 位整数,并以相反的顺序提供所提供的值。

_mm512_setr_epi64Experimentalavx512f

在 dst 中设置包装的 64 位整数,并以相反的顺序提供所提供的值。

_mm512_setr_pdExperimentalavx512f

在 dst 中设置包装的双精度 (64-bit) 浮点元素,并以相反的顺序提供所提供的值。

_mm512_setr_psExperimentalavx512f

dst 中设置包装的 32 位整数,并以相反的顺序提供所提供的值。

_mm512_setzeroExperimentalavx512f

返回 __m512 类型的 vector,所有元素均设置为零。

_mm512_setzero_epi32Experimentalavx512f

返回类型为 __m512i 的 vector,所有元素均设置为零。

_mm512_setzero_pdExperimentalavx512f

返回 __m512d 类型的 vector,所有元素均设置为零。

_mm512_setzero_psExperimentalavx512f

返回 __m512d 类型的 vector,所有元素均设置为零。

_mm512_setzero_si512Experimentalavx512f

返回 __m512i 类型的 vector,所有元素均设置为零。

_mm512_shldi_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并将高 16 位存储在 dst 中)。

_mm512_shldi_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并将高 32 位存储在 dst 中。

_mm512_shldi_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并将高 64 位存储在 dst 中)。

_mm512_shldv_epi16Experimentalavx512vbmi2

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的对应元素中指定的量,并将高 16 位存储在 dst 中。

_mm512_shldv_epi32Experimentalavx512vbmi2

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的对应元素中指定的量,并将高 32 位存储在 dst 中。

_mm512_shldv_epi64Experimentalavx512vbmi2

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的对应元素中指定的量,并将高 64 位存储在 dst 中。

_mm512_shrdi_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并将低 16 位存储在 dst 中。

_mm512_shrdi_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并将低 32 位存储在 dst 中。

_mm512_shrdi_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并将低 64 位存储在 dst 中。

_mm512_shrdv_epi16Experimentalavx512vbmi2

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的对应元素中指定的量,并将低 16 位存储在 dst 中。

_mm512_shrdv_epi32Experimentalavx512vbmi2

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的对应元素中指定的量,并将低 32 位存储在 dst 中。

_mm512_shrdv_epi64Experimentalavx512vbmi2

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的对应元素中指定的量,并将低 64 位存储在 dst 中。

_mm512_shuffle_epi8Experimentalavx512bw

根据 b 的对应 8 位元素中的打乱控制掩码,将 a 中的包装 8 位整数进行打乱,并将结果存储在 dst 中。

_mm512_shuffle_epi32Experimentalavx512f

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_shuffle_f32x4Experimentalavx512f

imm8 从 a 和 b 中随机选择 128 位 (由 4 个单精度 (32-bit) 浮点元素组成),并将结果存储在 dst 中。

_mm512_shuffle_f64x2Experimentalavx512f

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 2 个双精度 (64-bit) 浮点元素组成),并将结果存储在 dst 中。

_mm512_shuffle_i32x4Experimentalavx512f

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 4 个 32 位整数组成),并将结果存储在 dst 中。

_mm512_shuffle_i64x2Experimentalavx512f

随机排列 imm8 从 a 和 b 中选择的 128 位 (由 2 个 64 位整数组成),并将结果存储在 dst 中。

_mm512_shuffle_pdExperimentalavx512f

使用 imm8 中的控件对 128 位通道中的双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm512_shuffle_psExperimentalavx512f

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并将结果存储在 dst 中。

_mm512_shufflehi_epi16Experimentalavx512bw

使用 imm8 中的控件在 a 的 128 位通道的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的高 64 位中,并从 a 到 dst 复制 128 位的通道的低 64 位。

_mm512_shufflelo_epi16Experimentalavx512bw

使用 imm8 中的控件在 a 的 128 位通道的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的低 64 位中,并从 a 到 dst 复制 128 位的通道的高 64 位。

_mm512_sll_epi16Experimentalavx512bw

将包装的 16 位整数按计数左移,同时将零移位,并将结果存储在 dst 中。

_mm512_sll_epi32Experimentalavx512f

将包装的 32 位整数左移计数,同时将零移位,并将结果存储在 dst 中。

_mm512_sll_epi64Experimentalavx512f

将填充的 64 位整数左移计数,同时将零移位,并将结果存储在 dst 中。

_mm512_slli_epi16Experimentalavx512bw

将包装的 16 位整数左移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_slli_epi32Experimentalavx512f

将包装的 32 位整数左移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_slli_epi64Experimentalavx512f

将包装的 64 位整数左移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_sllv_epi16Experimentalavx512bw

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并将结果存储在 dst 中。

_mm512_sllv_epi32Experimentalavx512f

将填充的 32 位整数向左移动 count 中相应元素指定的数量,同时向零移动,并将结果存储在 dst 中。

_mm512_sllv_epi64Experimentalavx512f

将填充的 64 位整数向左移动由 count 中相应元素指定的数量,同时向零移动,并将结果存储在 dst 中。

_mm512_sqrt_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并将结果存储在 dst 中。

_mm512_sqrt_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并将结果存储在 dst 中。

_mm512_sqrt_round_pdExperimentalavx512f

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并将结果存储在 dst 中。

_mm512_sqrt_round_psExperimentalavx512f

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并将结果存储在 dst 中。

_mm512_sra_epi16Experimentalavx512bw

将包装的 16 位整数按计数右移,同时将符号位移位,并将结果存储在 dst 中。

_mm512_sra_epi32Experimentalavx512f

在移入符号位的同时按计数右移包装的 32 位整数,并将结果存储在 dst 中。

_mm512_sra_epi64Experimentalavx512f

在移动符号位的同时按计数右移包装的 64 位整数,并将结果存储在 dst 中。

_mm512_srai_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将符号位移位,并将结果存储在 dst 中。

_mm512_srai_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将符号位移位,并将结果存储在 dst 中。

_mm512_srai_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将符号位移位,并将结果存储在 dst 中。

_mm512_srav_epi16Experimentalavx512bw

将包装的 16 位整数右移 count 中相应元素指定的数量,同时移入符号位,然后将结果存储在 dst 中。

_mm512_srav_epi32Experimentalavx512f

在将符号位移位的同时,将已包装的 32 位整数右移由 count 中相应元素指定的数量,然后将结果存储在 dst 中。

_mm512_srav_epi64Experimentalavx512f

将移位的 64 位整数向右移动计数中相应元素指定的数量,同时移入符号位,并将结果存储在 dst 中。

_mm512_srl_epi16Experimentalavx512bw

将包装的 16 位整数按计数右移,同时将零移位,并将结果存储在 dst 中。

_mm512_srl_epi32Experimentalavx512f

将计数包装的 32 位整数右移,同时将零移位,并将结果存储在 dst 中。

_mm512_srl_epi64Experimentalavx512f

按计数右移包装的 64 位整数,同时将零移位,并将结果存储在 dst 中。

_mm512_srli_epi16Experimentalavx512bw

将包装的 16 位整数右移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_srli_epi32Experimentalavx512f

将包装的 32 位整数右移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_srli_epi64Experimentalavx512f

将包装的 64 位整数右移 imm8,同时将零移位,并将结果存储在 dst 中。

_mm512_srlv_epi16Experimentalavx512bw

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并将结果存储在 dst 中。

_mm512_srlv_epi32Experimentalavx512f

向右移动已包装的 32 位整数,偏移量为计数中相应元素指定的数量,同时向零移动,并将结果存储在 dst 中。

_mm512_srlv_epi64Experimentalavx512f

向右移位包装的 64 位整数 (由 count 中相应元素指定的数量),同时向零移位,并将结果存储在 dst 中。

_mm512_store_epi32Experimentalavx512f

将 a 中的 512 位 (由 16 个包装的 32 位整数组成) 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_store_epi64Experimentalavx512f

将 a 中的 512 位 (由 8 个包装的 64 位整数组成) 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_store_pdExperimentalavx512f

将 a 中的 512 位 (由 8 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_store_psExperimentalavx512f

将 a 中的 512 位整数数据存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_store_si512Experimentalavx512f

将 a 中的 512 位整数数据存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_storeu_epi8Experimentalavx512bw

将 a 中的 512 位 (由 64 个包装的 8 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm512_storeu_epi16Experimentalavx512bw

将 a 中的 512 位 (由 32 个包装的 16 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm512_storeu_epi32Experimentalavx512f

将 a 中的 512 位 (由 16 个包装的 32 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm512_storeu_epi64Experimentalavx512f

将 a 中的 512 位 (由 8 个包装的 64 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm512_storeu_pdExperimentalavx512f

将来自 a 的 512 位 (由 8 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。

_mm512_storeu_si512Experimentalavx512f

将 a 中的 512 位整数数据存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm512_stream_pdExperimentalavx512f

使用非临时内存提示将 512 位 (由 8 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_stream_psExperimentalavx512f

使用非临时内存提示将 512 位 (由 16 个包装的单精度 (32-bit) 浮点元素组成) 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_stream_si512Experimentalavx512f

使用非临时内存提示将 512 位整数数据从 a 存储到内存中。mem_addr 必须在 64 字节边界上对齐,否则可能会生成常规保护异常。

_mm512_sub_epi8Experimentalavx512bw

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并将结果存储在 dst 中。

_mm512_sub_epi16Experimentalavx512bw

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并将结果存储在 dst 中。

_mm512_sub_epi32Experimentalavx512f

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并将结果存储在 dst 中。

_mm512_sub_epi64Experimentalavx512f

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并将结果存储在 dst 中。

_mm512_sub_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_sub_psExperimentalavx512f

从 a 中的包装的单精度 (32-bit) 浮点元素中减去 b 中的包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_sub_round_pdExperimentalavx512f

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_sub_round_psExperimentalavx512f

从 a 中的包装的单精度 (32-bit) 浮点元素中减去 b 中的包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_subs_epi8Experimentalavx512bw

使用饱和度从包装的 8 位整数中减去 b 中的包装有符号 8 位整数,并将结果存储在 dst 中。

_mm512_subs_epi16Experimentalavx512bw

使用饱和度从 a 中的包装的 16 位整数减去 b 中的包装的有符号 16 位整数,并将结果存储在 dst 中。

_mm512_subs_epu8Experimentalavx512bw

使用 a 饱和度将 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm512_subs_epu16Experimentalavx512bw

使用饱和度将 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm512_ternarylogic_epi32Experimentalavx512f

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每个位,来自 a,b 和 c 的相应位用于形成到 imm8 的 3 位索引,并且将 imm8 中该位的值写入 dst 中的相应位。

_mm512_ternarylogic_epi64Experimentalavx512f

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 64 位整数中的每一位,a、b 和 c 中的相应位用于形成 imm8 中的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位。

_mm512_test_epi8_maskExperimentalavx512bw

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm512_test_epi16_maskExperimentalavx512bw

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm512_test_epi32_maskExperimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm512_test_epi64_maskExperimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm512_testn_epi8_maskExperimentalavx512bw

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm512_testn_epi16_maskExperimentalavx512bw

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm512_testn_epi32_maskExperimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm512_testn_epi64_maskExperimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间的 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm512_undefinedExperimentalavx512f

返回类型为 __m512 的 vector,其中包含未定义的元素。

_mm512_undefined_epi32Experimentalavx512f

返回类型为 __m512i 的 vector,其中包含未定义的元素。

_mm512_undefined_pdExperimentalavx512f

返回带有未定义元素的 __m512d 类型的 vector。

_mm512_undefined_psExperimentalavx512f

返回带有未定义元素的 __m512 类型的 vector。

_mm512_unpackhi_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 8 位整数,并将结果存储在 dst 中。

_mm512_unpackhi_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 16 位整数,并将结果存储在 dst 中。

_mm512_unpackhi_epi32Experimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织 32 位整数,并将结果存储在 dst 中。

_mm512_unpackhi_epi64Experimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织 64 位整数,并将结果存储在 dst 中。

_mm512_unpackhi_pdExperimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包并交织双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_unpackhi_psExperimentalavx512f

从 a 和 b 中每个 128 位通道的高半部分解包和交织单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_unpacklo_epi8Experimentalavx512bw

从 a 和 b 中每个 128 位通道的下半部分拆包并交织 8 位整数,并将结果存储在 dst 中。

_mm512_unpacklo_epi16Experimentalavx512bw

从 a 和 b 中每个 128 位通道的下半部分拆包并交织 16 位整数,并将结果存储在 dst 中。

_mm512_unpacklo_epi32Experimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解包和交织 32 位整数,并将结果存储在 dst 中。

_mm512_unpacklo_epi64Experimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解包并交织 64 位整数,并将结果存储在 dst 中。

_mm512_unpacklo_pdExperimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解解包并交织双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_unpacklo_psExperimentalavx512f

从 a 和 b 中每个 128 位通道的下半部分解压包并交织单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm512_xor_epi32Experimentalavx512f

计算 a 和 b 中包装的 32 位整数的按位 XOR,并将结果存储在 dst 中。

_mm512_xor_epi64Experimentalavx512f

计算 a 和 b 中包装的 64 位整数的按位 XOR,并将结果存储在 dst 中。

_mm512_xor_si512Experimentalavx512f

计算 a 和 b 中 512 位 (代表整数数据) 的按位 XOR,并将结果存储在 dst 中。

_mm512_zextpd128_pd512Experimentalavx512f

将类型 __m128d 的 vector 强制转换为 __m512d 类型; 结果的高 384 位被清零。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_zextpd256_pd512Experimentalavx512f

将类型 __m256d 的 vector 强制转换为 __m512d 类型; 结果的高 256 位被清零。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_zextps128_ps512Experimentalavx512f

将类型 __m128 的 vector 转换为 __m512 类型; 结果的高 384 位被清零。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_zextps256_ps512Experimentalavx512f

将类型为 __m256 的 vector 强制转换为类型 __m512; 结果的高 256 位被清零。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_zextsi128_si512Experimentalavx512f

将类型为 __m128i 的 vector 强制转换为类型 __m512i; 结果的高 384 位被清零。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm512_zextsi256_si512Experimentalavx512f

将类型为 __m256i 的 vector 强制转换为类型 __m512i; 结果的高 256 位被清零。此内联函数仅用于编译,不会生成任何指令,因此延迟为零。

_mm_add_round_sdExperimentalavx512f

在 a 和 b 中添加较低的双精度 (64-bit) 浮点元素,将结果存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。

_mm_add_round_ssExperimentalavx512f

在 a 和 b 中添加较低的单精度 (32-bit) 浮点元素,将结果存储在 dst 的较低元素中,并将较高的 3 个包装的元素从 a 复制到 dst 的较高元素。

_mm_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成一个 32 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并将低 16 字节 (4 个元素) 存储在 dst 中。

_mm_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成一个 32 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并将低 16 字节 (2 个元素) 存储在 dst 中。

_mm_bitshuffle_epi64_maskExperimentalavx512bitalg,avx512vl

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm_broadcastmb_epi64Experimentalavx512cd,avx512vl

将输入掩码 k 的低 8 位广播到 dst 的所有 64 位元素。

_mm_broadcastmw_epi32Experimentalavx512cd,avx512vl

将输入掩码 k 的低 16 位广播到 dst 的所有 32 位元素。

_mm_cmp_epi8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装带符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epi16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epi32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装有符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epi64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epu8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epu16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 16 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epu32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_epu64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 64 位整数,并将结果存储在掩码 vector k 中。

_mm_cmp_pd_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm_cmp_ps_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm_cmp_round_sd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cmp_round_ss_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cmp_sd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm_cmp_ss_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpeq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpge_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpge_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmpgt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于,并将结果存储在掩码 vector k 中。

_mm_cmple_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm_cmple_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm_cmple_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm_cmple_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),并将结果存储在掩码 vector k 中。

_mm_cmple_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数以得出小于或等于的结果,并将结果存储在掩码 vector k 中。

_mm_cmple_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm_cmple_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm_cmple_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并将结果存储在掩码 vector k 中。

_mm_cmplt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数小于零,并将结果存储在掩码 vector k 中。

_mm_cmplt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm_cmplt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm_cmplt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数小于零,并将结果存储在掩码 vector k 中。

_mm_cmplt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数以得到小于,并将结果存储在掩码 vector k 中。

_mm_cmplt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装后的无符号 16 位整数 (小于),并将结果存储在掩码 vector k 中。

_mm_cmplt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm_cmplt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_cmpneq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并将结果存储在掩码 vector k 中。

_mm_comi_round_sdExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,并返回布尔结果 (0 或 1)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_comi_round_ssExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,并返回布尔结果 (0 或 1)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_conflict_epi32Experimentalavx512cd,avx512vl

测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_conflict_epi64Experimentalavx512cd,avx512vl

测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_cvt_roundi32_ssExperimentalavx512f

将带符号的 32 位整数 b 转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 dst 的高位元素。

_mm_cvt_roundsd_i32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundsd_si32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundsd_ssExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundsd_u32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为 32 位无符号整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundsi32_ssExperimentalavx512f

将带符号的 32 位整数 b 转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 dst 的高位元素。

_mm_cvt_roundss_i32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundss_sdExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,将结果存储在 dst 的下部元素中,然后将上部的元素从 a 复制到 dst 的上部元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvt_roundss_si32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundss_u32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位无符号整数,并将结果存储在 dst 中。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvt_roundu32_ssExperimentalavx512f

将无符号的 32 位整数 b 转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 dst 的高位元素。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_cvtepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm_cvtepi64_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 8 位整数,并将结果存储在 dst 中。

_mm_cvtepi64_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 16 位整数,并将结果存储在 dst 中。

_mm_cvtepi64_epi32Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带有截断的包装的 32 位整数,并将结果存储在 dst 中。

_mm_cvtepu32_pdExperimentalavx512f,avx512vl

将 A 中的包装的无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm_cvti32_sdExperimentalavx512f

将带符号的 32 位整数 b 转换为双精度 (64-bit) 浮点元素,将结果存储在 dst 的下部元素中,然后将 a 的上部元素复制到 dst 的上部元素。

_mm_cvti32_ssExperimentalavx512f

将带符号的 32 位整数 b 转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 dst 的高位元素。

_mm_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 128 位 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并将结果存入 a

_mm_cvtpd_epu32Experimentalavx512f,avx512vl

将包装的双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvtph_psExperimentalf16c

将 128 位 vector a 的最低 64 位中的 4 x 16 位半精度浮点值转换为存储在 128 位宽的 vector 中的 4 x 32 位浮点值。

_mm_cvtps_epu32Experimentalavx512f,avx512vl

将包装的单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvtps_phExperimentalf16c

将 128 位 vector a 中的 4 x 32 位浮点值转换为 4 x 16 位半精度浮点值存储在 128 位 vector 的最低 64 位中。

_mm_cvtsd_i32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。

_mm_cvtsd_u32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为 32 位无符号整数,并将结果存储在 dst 中。

_mm_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 A 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并将结果存储在 dst 中。

_mm_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm_cvtsepi64_epi8Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 8 位整数,并将结果存储在 dst 中。

_mm_cvtsepi64_epi16Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并将结果存储在 dst 中。

_mm_cvtsepi64_epi32Experimentalavx512f,avx512vl

将包装的带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并将结果存储在 dst 中。

_mm_cvtss_i32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位整数,并将结果存储在 dst 中。

_mm_cvtss_u32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为 32 位无符号整数,并将结果存储在 dst 中。

_mm_cvtt_roundsd_i32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvtt_roundsd_si32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvtt_roundsd_u32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为带截断的无符号 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvtt_roundss_i32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvtt_roundss_si32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvtt_roundss_u32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为带截断的无符号 32 位整数,并将结果存储在 dst 中。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvttsd_i32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。

_mm_cvttsd_u32Experimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素转换为带截断的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvttss_i32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为带截断的 32 位整数,并将结果存储在 dst 中。

_mm_cvttss_u32Experimentalavx512f

将 a 中的较低单精度 (32-bit) 浮点元素转换为带截断的无符号 32 位整数,并将结果存储在 dst 中。

_mm_cvtu32_sdExperimentalavx512f

将无符号的 32 位整数 b 转换为双精度 (64-bit) 浮点元素,将结果存储在 dst 的低位元素中,然后将 a 的高位元素复制到 dst 的高位元素。

_mm_cvtu32_ssExperimentalavx512f

将无符号的 32 位整数 b 转换为单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 dst 的高位元素。

_mm_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装无符号 32 位整数转换为具有无符号饱和度的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并将结果存储在 dst 中。

_mm_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并将结果存储在 dst 中。

_mm_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 A 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并将结果存储在 dst 中。

_mm_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并将 16 位结果存储在 dst 中。对于每个 64 位通道,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中通道的低 8 位四元组,而后两个 SAD 使用 a 中通道的较高 8 位四元组。根据 imm8 中的控件,从 128 位通道中选择 b 中的四元组,并且每个 64 位通道中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm_div_round_sdExperimentalavx512f

将 a 中的下部双精度 (64-bit) 浮点元素除以 b 中的下部双精度 (64-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部的元素从 a 复制到 dst 的上部元素。

_mm_div_round_ssExperimentalavx512f

将 a 中的下部单精度 (32-bit) 浮点元素除以 b 中的下部单精度 (32-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部 3 个包装的元素从 a 复制到上部元素 dst。

_mm_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素相加,并将结果存储在 dst 中。

_mm_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用有符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果存入 dst。

_mm_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并将包装的 32 位结果存储在 dst 中。

_mm_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装的 64 位整数修复 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。imm8 用于设置所需的标志报告。

_mm_fixupimm_round_sdExperimentalavx512f

使用 c 中的较低 64 位整数修复 a 和 b 中较低的双精度 (64-bit) 浮点元素,将结果存储在 dst 的较低元素中,并将较高的元素从 a 复制到 dst 的较高元素。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_fixupimm_round_ssExperimentalavx512f

使用 c 中的低 32 位整数修复 a 和 b 中的低位单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 a 的高位元素 dst。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_fixupimm_sdExperimentalavx512f

使用 c 中的较低 64 位整数修复 a 和 b 中较低的双精度 (64-bit) 浮点元素,将结果存储在 dst 的较低元素中,并将较高的元素从 a 复制到 dst 的较高元素。imm8 用于设置所需的标志报告。

_mm_fixupimm_ssExperimentalavx512f

使用 c 中的低 32 位整数修复 a 和 b 中的低位单精度 (32-bit) 浮点元素,将结果存储在 dst 的低位元素中,并将高 3 个包装的元素从 a 复制到 a 的高位元素 dst。imm8 用于设置所需的标志报告。

_mm_fmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,并将中间结果与较低元素 in c. Store 的结果相加到 dst 的较低元素中,并将较高的元素从 a 复制到 dst 的较高元素。

_mm_fmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,并将中间结果与较低元素 in c. Store 的结果相加到 dst 的较低元素中,然后将较高的 3 个包装的元素从 a 复制到 dst 的较高元素。

_mm_fmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。将结果存储在 dst 的下部元素中,然后将 a 的上部元素复制到 dst 的上部元素中。

_mm_fmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。将结果存储在 dst 的下部元素中,并将上部 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_fnmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后将求和的中间结果与较低元素 in c. Store 的结果相加到 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素中。

_mm_fnmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后将取反的中间结果与较低元素 in c. Store 相加,将结果与 dst 的较低元素相乘,然后将较高的 3 个包装的元素从 a 复制到 dst。

_mm_fnmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。将结果存储在 dst 的下部元素中,然后将 a 的上部元素复制到 dst 的上部元素中。

_mm_fnmsub_round_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的下部元素,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到上部 dst 的元素。

_mm_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并将结果存储在 dst 中。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并将结果存储在 dst 中。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm_getexp_round_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,将结果存储在 dst 的低位元素中,并将高位元素从 a 复制到 dst 的上层元素。本质上,此内联函数计算下部元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_getexp_round_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,将结果存储在 dst 的较低元素中,并从 a 中复制较高的 3 个包装的元素到 dst 的上层元素。本质上,此内联函数计算下部元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_getexp_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,将结果存储在 dst 的低位元素中,并将高位元素从 a 复制到 dst 的上层元素。本质上,此内联函数计算下部元素的 floor(log2(x))。

_mm_getexp_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,将结果存储在 dst 的较低元素中,并从 a 中复制较高的 3 个包装的元素到 dst 的上层元素。本质上,此内联函数计算下部元素的 floor(log2(x))。

_mm_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数规格化,并将结果存储在 dst 中。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm_getmant_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数标准化,并将结果存储在 dst 中。 此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。 尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值: _MM_MANT_NORM_1_2 // interval [1, 2) _MM_MANT_NORM_p5_2 // interval [0.5, 2) _MM_MANT_NORM_p5_1 // interval [0.5, 1) _MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5) The sign is determined by sc which can take the following values:

_mm_getmant_round_sdExperimentalavx512f

标准化 b 中较低的双精度 (64-bit) 浮点元素的尾数,将结果存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_getmant_round_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,将结果存储在 dst 的较低元素中,并将高 3 个包装的元素从 a 复制到 dst 的较高元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_getmant_sdExperimentalavx512f

标准化 b 中较低的双精度 (64-bit) 浮点元素的尾数,将结果存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_getmant_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,将结果存储在 dst 的较低元素中,并将高 3 个包装的元素从 a 复制到 dst 的较高元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm_load_epi32Experimentalavx512f,avx512vl

将 128 位 (由 4 个包装的 32 位整数组成) 从内存加载到 dst 中。mem_addr 必须在 16 字节边界上对齐,否则可能会生成一般保护异常。

_mm_load_epi64Experimentalavx512f,avx512vl

将 128 位 (由 2 个包装的 64 位整数组成) 从内存加载到 dst 中。mem_addr 必须在 16 字节边界上对齐,否则可能会生成一般保护异常。

_mm_loadu_epi8Experimentalavx512bw,avx512vl

将 128 位 (由 16 个包装的 8 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm_loadu_epi16Experimentalavx512bw,avx512vl

将 128 位 (由 8 个包装的 16 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm_loadu_epi32Experimentalavx512f,avx512vl

将 128 位 (由 4 个包装的 32 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm_loadu_epi64Experimentalavx512f,avx512vl

将 128 位 (由 2 个包装的 64 位整数组成) 从内存加载到 dst 中。mem_addr 不需要在任何特定边界上对齐。

_mm_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并将结果存储在 dst 中。

_mm_madd52hi_epu64Experimentalavx512ifma,avx512vl

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的高 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm_madd52lo_epu64Experimentalavx512ifma,avx512vl

bc 的每个 64 位元素中的包装无符号 52 位整数相乘以形成 104 位中间结果。 将中间结果的低 52 位无符号整数与 a 中的相应无符号 64 位整数相加,并将结果存储在 dst 中。

_mm_mask2_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨通道打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm_mask2_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm_mask2_permutex2var_epi32Experimentalavx512f,avx512vl

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm_mask2_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm_mask2_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 idx 复制元素)

_mm_mask2_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的对应选择器和索引在 a 和 b 中的通道中对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 idx 复制元素)。

_mm_mask3_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 c 复制元素)。

_mm_mask3_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm_mask3_fmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,并将中间结果与较低的元素 in c. Store 的结果相加,使用 writemask k 在 dst 的较低元素中 (当未使用 mask bit 0 时从 c 复制该元素) 设置),然后将 c 的上部元素复制到 dst 的上部元素。

_mm_mask3_fmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,并将中间结果加到较低元素 in c. Store 中,并使用 writemask k 将结果存储到 dst 较低元素中 (当未使用 mask bit 0 时从 c 复制该元素) 设置),然后将 c 的高 3 个包装的元素复制到 dst 的高元素。

_mm_mask3_fmadd_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,并将中间结果与较低的元素 in c. Store 的结果相加,使用 writemask k 在 dst 的较低元素中 (当未使用 mask bit 0 时从 c 复制该元素) 设置),然后将 c 的上部元素复制到 dst 的上部元素。

_mm_mask3_fmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,并将中间结果加到较低元素 in c. Store 中,并使用 writemask k 将结果存储到 dst 较低元素中 (当未使用 mask bit 0 时从 c 复制该元素) 设置),然后将 c 的高 3 个包装的元素复制到 dst 的高元素。

_mm_mask3_fmaddsub_pdExperimentalavx512f,avx512vl

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm_mask3_fmaddsub_psExperimentalavx512f,avx512vl

在 a 和 b 中分别乘以包装的单精度 (32-bit) 浮点元素,或者在 to/from 中将中间结果乘以包装的元素加减乘以 x,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 c 复制元素) 放)。

_mm_mask3_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm_mask3_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 c 复制元素)。

_mm_mask3_fmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 writemask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,从 c 复制元素),并将 c 上的上层元素复制到 dst 的上层元素。

_mm_mask3_fmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 c 复制到 dst 的上部元素。

_mm_mask3_fmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 writemask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,从 c 复制元素),并将 c 上的上层元素复制到 dst 的上层元素。

_mm_mask3_fmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 c 复制到 dst 的上部元素。

_mm_mask3_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm_mask3_fmsubadd_psExperimentalavx512f,avx512vl

在 a 和 b 中乘以包装的单精度 (32-bit) 浮点元素,或者在中间结果中减去并在 c from/to 中包装的元素相乘,然后使用 writemask k 将结果存储在 dst 中 (当未使用相应的 mask 位时从 c 复制元素) 放)。

_mm_mask3_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 c 复制元素)。

_mm_mask3_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 c 复制)。

_mm_mask3_fnmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果相加到 dst 的较低元素中 (当掩码位 0 为 0 时从 c 复制该元素) (未设置),然后将 c 的上部元素复制到 dst 的上部元素。

_mm_mask3_fnmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用写掩码 k 将取反的中间结果与较低元素 in c. Store 的结果相加到 dst 较低元素中 (当掩码位 0 为 0 时从 c 复制该元素) (未设置),然后将 c 的高 3 个包装的元素复制到 dst 的高元素。

_mm_mask3_fnmadd_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果相加到 dst 的较低元素中 (当掩码位 0 为 0 时从 c 复制该元素) (未设置),然后将 c 的上部元素复制到 dst 的上部元素。

_mm_mask3_fnmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用写掩码 k 将取反的中间结果与较低元素 in c. Store 的结果相加到 dst 较低元素中 (当掩码位 0 为 0 时从 c 复制该元素) (未设置),然后将 c 的高 3 个包装的元素复制到 dst 的高元素。

_mm_mask3_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 c 复制元素)。

_mm_mask3_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 c 复制元素)。

_mm_mask3_fnmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 writemask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,从 c 复制元素),并将 c 上的上层元素复制到 dst 的上层元素。

_mm_mask3_fnmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 c 复制到 dst 的上部元素。

_mm_mask3_fnmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 writemask k 将结果存储在 dst 的下层元素中 (当掩码位 0 未设置时,从 c 复制元素),并将 c 上的上层元素复制到 dst 的上层元素。

_mm_mask3_fnmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 c 复制到 dst 的上部元素。

_mm_mask_abs_epi8Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 8 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)

_mm_mask_abs_epi16Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 16 位整数的绝对值,并使用写掩码 k 将无符号的结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_abs_epi32Experimentalavx512f,avx512vl

计算 a 中包装的有符号 32 位整数的绝对值,并使用 writemask k 将无符号结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_add_epi8Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_add_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_add_epi32Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_add_epi64Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_add_pdExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_add_psExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_add_round_sdExperimentalavx512f

在 a 和 b 中添加较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并从中复制较高的元素。a 到 dst 的高位元素。

_mm_mask_add_round_ssExperimentalavx512f

在 a 和 b 中添加较低的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时,该元素是从 src 复制的),并复制高位 3 从 a 到 dst 的高位元素。

_mm_mask_add_sdExperimentalavx512f

在 a 和 b 中添加较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并从中复制较高的元素。a 到 dst 的高位元素。

_mm_mask_add_ssExperimentalavx512f

在 a 和 b 中添加较低的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时,该元素是从 src 复制的),并复制高位 3 从 a 到 dst 的高位元素。

_mm_mask_adds_epi8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_adds_epi16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_adds_epu8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_adds_epu16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_alignr_epi8Experimentalavx512bw,avx512vl

将 a 和 b 中的 16 字节块对连接成 32 字节的临时结果,将结果右移 imm8 字节,并使用写掩码 k 将低 16 个字节存储在 dst 中 (当相应的掩码位为 1 时,元素从 src 复制没有设置)。

_mm_mask_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成一个 32 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并使用 writemask k 将低 16 字节 (4 个元素) 存储在 dst 中 (当对应的掩码位为没有设置)。

_mm_mask_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成 32 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并使用 writemask k 将低 16 字节 (2 个元素) 存储在 dst 中 (当相应的掩码位为没有设置)。

_mm_mask_and_epi32Experimentalavx512f,avx512vl

在包装的 a 和 b 的 32 位整数元素之间执行逐个元素的按位 AND,使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_and_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 src 复制元素)。

_mm_mask_andnot_epi32Experimentalavx512f,avx512vl

计算 a 中包装的 32 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_andnot_epi64Experimentalavx512f,avx512vl

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_avg_epu8Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 8 位整数平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_avg_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_bitshuffle_epi64_maskExperimentalavx512bitalg,avx512vl

将输入 b 视为包装的 64 位整数,并将 c 视为包装的 8 位整数。 然后将来自 c 的 8 个 8 位值作为索引分组到相应的 64 位整数的位中。 然后,选择这些位并将其包装到输出中。

_mm_mask_blend_epi8Experimentalavx512bw,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 8 位整数,并将结果存储在 dst 中。

_mm_mask_blend_epi16Experimentalavx512bw,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装的 16 位整数,并将结果存储在 dst 中。

_mm_mask_blend_epi32Experimentalavx512f,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 32 位整数,并将结果存储在 dst 中。

_mm_mask_blend_epi64Experimentalavx512f,avx512vl

使用控制掩码 k 混合 a 和 b 中的包装 64 位整数,并将结果存储在 dst 中。

_mm_mask_blend_pdExperimentalavx512f,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装后的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm_mask_blend_psExperimentalavx512f,avx512vl

使用控制掩码 k 混合来自 a 和 b 的包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm_mask_broadcastb_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将 d 的低包装的 8 位整数广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_broadcastd_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_broadcastq_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_broadcastss_psExperimentalavx512f,avx512vl

使用写掩码 k 将低单精度 (32-bit) 浮点型元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,将元素从 src 复制)。

_mm_mask_broadcastw_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_cmp_epi8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmp_epi16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmp_epi32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmp_epi64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmp_epu8_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 8 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmp_epu16_maskExperimentalavx512bw,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmp_epu32_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装无符号 32 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmp_epu64_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmp_pd_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmp_ps_maskExperimentalavx512f,avx512vl

根据 imm8 指定的比较操作数比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmp_round_sd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置掩码位 0 时该元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_cmp_round_ss_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置掩码位 0 时该元素清零)。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_cmp_sd_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置掩码位 0 时该元素清零)。

_mm_mask_cmp_ss_maskExperimentalavx512f

根据 imm8 指定的比较操作数比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置掩码位 0 时该元素清零)。

_mm_mask_cmpeq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpeq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否相等,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpeq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmpeq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpeq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpeq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpeq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpeq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpge_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpge_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpge_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否等于或大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpge_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpge_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpge_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于等于,然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpge_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpge_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpgt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpgt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpgt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数是否大于,并将结果使用零掩码 k1 存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpgt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpgt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpgt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpgt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpgt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否大于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmple_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmple_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmple_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmple_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数 (小于等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmple_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmple_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmple_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmple_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmplt_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmplt_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmplt_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数 (小于或等于),然后使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素清零)。

_mm_mask_cmplt_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数小于零,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmplt_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmplt_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数以得到小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmplt_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否小于等于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmplt_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否小于,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpneq_epi8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_mask_cmpneq_epi16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpneq_epi32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpneq_epi64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时,元素将清零)。

_mm_mask_cmpneq_epu8_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpneq_epu16_maskExperimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpneq_epu32_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_cmpneq_epu64_maskExperimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数是否不相等,并使用零掩码 k1 将结果存储在掩码 vector k 中 (当未设置相应的掩码位时元素清零)。

_mm_mask_compress_epi8Experimentalavx512vbmi2,avx512vl

将 a 中的活动 8 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm_mask_compress_epi16Experimentalavx512vbmi2,avx512vl

将 a 中的活动 16 位整数 (它们各自的位设置在写掩码 k 中) 连续存储到 dst,并通过 src 中的其余元素。

_mm_mask_compress_epi32Experimentalavx512f,avx512vl

将活动的 32 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm_mask_compress_epi64Experimentalavx512f,avx512vl

将活动的 64 位整数连续存储在 dst 中 (它们各自的位在写掩码 k 中设置的整数) 到 dst,并通过 src 中的其余元素。

_mm_mask_compress_pdExperimentalavx512f,avx512vl

将活动的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位在写掩码 k 中设置) 到 dst,并通过 src 中的其余元素。

_mm_mask_compress_psExperimentalavx512f,avx512vl

将活动的单精度 (32-bit) 浮点元素连续存储在 dst 中 (将其各自的位设置在写掩码 k 中的那些元素中) 存储到 dst,并通过 src 中的其余元素。

_mm_mask_conflict_epi32Experimentalavx512cd,avx512vl

使用写掩码 k (在未设置相应的掩码位时从 src 复制元素),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_mask_conflict_epi64Experimentalavx512cd,avx512vl

使用写掩码 k 测试 a 的每个 64 位元素是否与所有其他元素相等 (更接近最低有效位) (当未设置相应的掩码位时,从 src 复制元素)。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_mask_cvt_roundps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_cvt_roundsd_ssExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_cvt_roundss_sdExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),然后将上层元素从 a 复制到 dst 的上层元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_cvtepi8_epi16Experimentalavx512bw,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi8_epi32Experimentalavx512f,avx512vl

符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi8_epi64Experimentalavx512f,avx512vl

将 a 的低 2 字节中的 8 位整数符号扩展为包装的 64 位整数,并使用 writemask k 将结果存入 dst 中 (未设置相应掩码位时从 src 复制元素)。

_mm_mask_cvtepi16_epi8Experimentalavx512bw,avx512vl

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi16_epi32Experimentalavx512f,avx512vl

符号将包装后的 16 位整数从 a 扩展为包装后的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi16_epi64Experimentalavx512f,avx512vl

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi16_storeu_epi8Experimentalavx512bw,avx512vl

将 a 中的包装的 16 位整数转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi32_epi64Experimentalavx512f,avx512vl

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi32_pdExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvtepi32_psExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvtepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装的 32 位整数在 a 中转换为带有截断的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtepi32_storeu_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 32 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带有截断的包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepi64_storeu_epi8Experimentalavx512f,avx512vl

将 a 中包装的 64 位整数转换为包装的 8 位整数并截断,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

_mm_mask_cvtepi64_storeu_epi16Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtepi64_storeu_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtepu8_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepu8_epi32Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 4 字节到包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm_mask_cvtepu8_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 2 字节到包装的 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm_mask_cvtepu16_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepu16_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 16 位整数 a 的低 4 字节到包装的 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm_mask_cvtepu32_epi64Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtepu32_pdExperimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 writemask k 将结果存储在单个 vector dst 中 (当对应的掩码位为没有设置)。

_mm_mask_cvtpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvtpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvtpd_psExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvtph_psExperimentalavx512f,avx512vl

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvtps_epi32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvtps_epu32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvtps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_cvtsd_ssExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装带符号的 16 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtsepi16_storeu_epi8Experimentalavx512bw,avx512vl

将包装在 a 中的有符号 16 位整数转换为有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtsepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtsepi32_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的有符号 32 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (那些在 writemask k 中设置了相应位的结果) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtsepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtsepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtsepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtsepi64_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtsepi64_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtsepi64_storeu_epi32Experimentalavx512f,avx512vl

将包装在 a 中的有符号 64 位整数转换为具有符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtss_sdExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_cvttpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvttps_epi32Experimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtusepi16_storeu_epi8Experimentalavx512bw,avx512vl

将包装在 a 中的无符号 16 位整数转换为具有无符号饱和的包装的无符号 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtusepi32_storeu_epi8Experimentalavx512f,avx512vl

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtusepi32_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的无符号 32 位整数转换为具有无符号饱和的包装的无符号 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_cvtusepi64_storeu_epi8Experimentalavx512f,avx512vl

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 8 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 的未对齐内存中。

_mm_mask_cvtusepi64_storeu_epi16Experimentalavx512f,avx512vl

将包装在 a 中的无符号 64 位整数转换为具有无符号饱和的包装的 16 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_cvtusepi64_storeu_epi32Experimentalavx512f,avx512vl

将包装的无符号 64 位整数在 a 中转换为具有无符号饱和的包装的 32 位整数,并将活动结果 (在 writemask k 中设置了相应位的那些) 存储到 base_addr 处的未对齐内存中。

_mm_mask_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中的无符号 8 位整数与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs),并使用写掩码 k 将 16 位结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。对于每个 64 位通道,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中通道的低 8 位四元组,而后两个 SAD 使用 a 中通道的较高 8 位四元组。根据 imm8 中的控件,从 128 位通道中选择 b 中的四元组,并且每个 64 位通道中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm_mask_div_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_div_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素除以 b 中的包装的元素,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_div_round_sdExperimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素除以 b 中的较低双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时从 src 复制该元素 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_div_round_ssExperimentalavx512f

将 a 中的下部单精度 (32-bit) 浮点元素除以 b 中的下部单精度 (32-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的下部元素中 (当掩码位 0 时,该元素从 src 复制 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_div_sdExperimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素除以 b 中的较低双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时从 src 复制该元素 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_div_ssExperimentalavx512f

将 a 中的下部单精度 (32-bit) 浮点元素除以 b 中的下部单精度 (32-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的下部元素中 (当掩码位 0 时,该元素从 src 复制 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间的单精度 (32-bit) 浮点元素与 src 中的元素相加,并使用 writemask k 将结果存储在 dst 中 (当对应的元素从 src 复制时掩码位未设置)。

_mm_mask_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (未设置相应掩码位时从 src 复制元素)。

_mm_mask_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。使用符号饱和将这 4 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm_mask_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 writemask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm_mask_expand_epi8Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_expand_epi16Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_expand_epi32Experimentalavx512f,avx512vl

从 a 加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_expand_epi64Experimentalavx512f,avx512vl

从 a 加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_expand_pdExperimentalavx512f,avx512vl

从 a 加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_expand_psExperimentalavx512f,avx512vl

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm_mask_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (未设置相应的 mask 位时从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm_mask_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,从 a 复制元素)。imm8 用于设置所需的标志报告。

_mm_mask_fixupimm_round_sdExperimentalavx512f

使用 c 中的较低 64 位整数修复 a 和 b 中的较低双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当 mask bit 0 为 0 时从 a 复制该元素 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_fixupimm_round_ssExperimentalavx512f

使用 c 中的较低 32 位整数修复 a 和 b 中的较低单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当 mask bit 0 为 0 时从 a 复制该元素 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_fixupimm_sdExperimentalavx512f

使用 c 中的较低 64 位整数修复 a 和 b 中的较低双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当 mask bit 0 为 0 时从 a 复制该元素 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。imm8 用于设置所需的标志报告。

_mm_mask_fixupimm_ssExperimentalavx512f

使用 c 中的较低 32 位整数修复 a 和 b 中的较低单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的较低元素中 (当 mask bit 0 为 0 时从 a 复制该元素 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。imm8 用于设置所需的标志报告。

_mm_mask_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm_mask_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 a 复制元素)。

_mm_mask_fmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,并使用 writemask k 将中间结果添加到 dst 较低元素中的较低元素 in c. Store 的结果 (当未使用掩码位 0 时从 a 复制该元素) set),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_fmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,并将中间结果加到较低元素 in c. Store 中,并使用 writemask k 将结果添加到 dst 较低元素中 (当未使用 mask bit 0 时从 a 复制该元素设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_fmadd_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,并使用 writemask k 将中间结果添加到 dst 较低元素中的较低元素 in c. Store 的结果 (当未使用掩码位 0 时从 a 复制该元素) set),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_fmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,并将中间结果加到较低元素 in c. Store 中,并使用 writemask k 将结果添加到 dst 较低元素中 (当未使用 mask bit 0 时从 a 复制该元素设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_fmaddsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 中复制元素放)。

_mm_mask_fmaddsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位则从 a 复制元素放)。

_mm_mask_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (如果未设置相应的掩码位,则从 a 复制元素)。

_mm_mask_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 a 复制元素)。

_mm_mask_fmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 a 复制该元素),然后将 a 的上部元素复制到 dst 的上部元素。

_mm_mask_fmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的低位元素中 (当未设置掩码位 0 时从 a 复制该元素),并将高 3 个压缩元素从 a 复制到 dst 的高位元素。

_mm_mask_fmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 a 复制该元素),然后将 a 的上部元素复制到 dst 的上部元素。

_mm_mask_fmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。将结果存储在 dst 的下部元素中,并将上部 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_mask_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,并使用 writemask k 将结果存储在 dst 中 (当未使用相应的掩码位时,元素将从 a 复制放)。

_mm_mask_fmsubadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将中间结果中的包装后的元素 from/to 减去并相加,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 a 复制元素放)。

_mm_mask_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm_mask_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm_mask_fnmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果相加到 dst 的较低元素中 (当掩码位 0 为 0 时从 a 复制 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_fnmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低元素 in c. Store 的结果相加到 dst 较低元素中 (当掩码位 0 为 0 时,该元素是从 a 复制的 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_fnmadd_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果相加到 dst 的较低元素中 (当掩码位 0 为 0 时从 a 复制 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_fnmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用写掩码 k 将求反的中间结果与较低元素 in c. Store 的结果相加到 dst 较低元素中 (当掩码位 0 为 0 时,该元素是从 a 复制的 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm_mask_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 a 复制元素)。

_mm_mask_fnmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的低位元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高位元素从 a 复制到 dst 的高位元素。

_mm_mask_fnmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_mask_fnmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的低位元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高位元素从 a 复制到 dst 的高位元素。

_mm_mask_fnmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时从 c 复制该元素),并将高 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_mask_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当相应的 mask 时,元素从 src 复制位未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm_mask_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,并使用 writemask k 将结果存储在 dst 中 (当相应的 mask 时,元素从 src 复制位未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm_mask_getexp_round_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为表示整数指数的双精度 (64-bit) 浮点数,使用写掩码 k 将结果存储在 dst 的较低元素中 (该元素从 src 复制 (当未设置屏蔽位 0 时),然后将 a 的高位元素复制到 dst 的高位元素。本质上,此内联函数计算下部元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_getexp_round_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,使用写掩码 k 将结果存储在 dst 的较低元素中 (该元素从 src 复制 (当未设置掩码位 0 时),并将高 3 个包装的元素从 a 复制到 dst 的高元素。本质上,此内联函数计算下部元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_getexp_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为表示整数指数的双精度 (64-bit) 浮点数,使用写掩码 k 将结果存储在 dst 的较低元素中 (该元素从 src 复制 (当未设置屏蔽位 0 时),然后将 a 的高位元素复制到 dst 的高位元素。本质上,此内联函数计算下部元素的 floor(log2(x))。

_mm_mask_getexp_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,使用写掩码 k 将结果存储在 dst 的较低元素中 (该元素从 src 复制 (当未设置掩码位 0 时),并将高 3 个包装的元素从 a 复制到 dst 的高元素。本质上,此内联函数计算下部元素的 floor(log2(x))。

_mm_mask_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm_mask_getmant_psExperimentalavx512f,avx512vl

标准化 a 中包装的单精度 (32-bit) 浮点元素的尾数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm_mask_getmant_round_sdExperimentalavx512f

标准化 b 中下部双精度 (64-bit) 浮点元素的尾数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_getmant_round_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制高 3 从 a 到 dst 的上层元素的包装的元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_getmant_sdExperimentalavx512f

标准化 b 中下部双精度 (64-bit) 浮点元素的尾数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_getmant_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制高 3 从 a 到 dst 的上层元素的包装的元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_mask_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_mask_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm_mask_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_madd_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 writemask k 将结果打包到 dst (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_maddubs_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平相加相邻的中间带符号的 16 位整数对,并使用写掩码 k 将饱和结果包装到 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_psExperimentalavx512f,avx512vl

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_max_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将最大值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的元素从 a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_max_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用写掩码 k 将最大值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的 3 从 a 到 dst 的上层元素的包装的元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_max_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将最大值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的元素从 a 到 dst 的高位元素。

_mm_mask_max_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用写掩码 k 将最大值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的 3 从 a 到 dst 的上层元素的包装的元素。

_mm_mask_min_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_min_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_min_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_min_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_min_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_min_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_min_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_min_psExperimentalavx512f,avx512vl

比较 a 和 b 中包装的单精度 (32-bit) 浮点元素,并使用写掩码 k 将包装的最小值存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_min_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),然后复制较高的元素从 a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_min_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用写掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的 3 从 a 到 dst 的上层元素的包装的元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_mask_min_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),然后复制较高的元素从 a 到 dst 的高位元素。

_mm_mask_min_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用写掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的 3 从 a 到 dst 的上层元素的包装的元素。

_mm_mask_mov_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将包装的 8 位整数从 a 移到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mov_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 将包装的 16 位整数从 a 移到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mov_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将包装的 32 位整数从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mov_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将包装的 64 位整数从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mov_pdExperimentalavx512f,avx512vl

使用写掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_mov_psExperimentalavx512f,avx512vl

使用写掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移动到 dst (未设置相应的掩码位时,将从 src 复制元素)。

_mm_mask_move_sdExperimentalavx512f

使用写掩码 k 将低位双精度 (64-bit) 浮点元素从 b 移到 dst 的低位元素 (当未设置掩码位 0 时从 src 复制该元素),并将高位元素从 a 复制到 a 的高位元素 dst。

_mm_mask_move_ssExperimentalavx512f

使用写掩码 k 将低位单精度 (32-bit) 浮点元素从 b 移到 dst 的低位元素 (当未设置掩码位 0 时从 src 复制该元素),并将高 3 个包装的元素从 a 复制到高位 dst 的元素。

_mm_mask_movedup_pdExperimentalavx512f,avx512vl

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_movehdup_psExperimentalavx512f,avx512vl

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_moveldup_psExperimentalavx512f,avx512vl

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_mul_epi32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低符号 32 位整数相乘,并使用写掩码 k 将有符号的 64 位结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_mul_epu32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用写掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_mul_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_mul_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_mul_round_sdExperimentalavx512f

将 a 和 b 中的下部双精度 (64-bit) 浮点元素相乘,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并从中复制上部元素。a 到 dst 的高位元素。

_mm_mask_mul_round_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制包装后的高 3 位元素从 a 到 dst 的高位元素。

_mm_mask_mul_sdExperimentalavx512f

将 a 和 b 中的下部双精度 (64-bit) 浮点元素相乘,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并从中复制上部元素。a 到 dst 的高位元素。

_mm_mask_mul_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制包装后的高 3 位元素从 a 到 dst 的高位元素。

_mm_mask_mulhi_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的带符号的 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_mulhi_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数相乘,生成 32 位中间整数,并使用写掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_mulhrs_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 writemask k 将位 [16:1] 存储到 dst (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_mullo_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用写掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_mullo_epi32Experimentalavx512f,avx512vl

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用写掩码 k 将中间整数的低 32 位存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 writemask k (元素当相应的屏蔽位未设置时,从 src 复制)。

_mm_mask_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_packs_epi16Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_packs_epi32Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_packus_epi16Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_packus_epi32Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_permute_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道内对双精度 (64-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_permute_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_permutevar_pdExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位通道内将 a 的双精度 (64-bit) 浮点元素进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_permutevar_psExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位通道内将 a 的单精度 (32-bit) 浮点元素打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用相应的选择器和 idx 中的索引将 a 和 b 中的 8 位整数跨通道打乱,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm_mask_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm_mask_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 32 位整数进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm_mask_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中随机排列 64 位整数,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm_mask_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm_mask_permutex2var_psExperimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在 a 和 b 中的通道上对 a 和 b 中的单精度 (32-bit) 浮点元素进行混洗,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 a 复制)。

_mm_mask_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引在跨通道的 a 中打乱 8 位整数,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨通道中对 16 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm_mask_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm_mask_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm_mask_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm_mask_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。该近似值的最大相对误差小于 2^-14。

_mm_mask_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。该近似值的最大相对误差小于 2^-14。

_mm_mask_rcp14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似倒数,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),并复制较高的 x 元素从 a 到 dst 的高位元素。该近似值的最大相对误差小于 2^-14。

_mm_mask_rcp14_ssExperimentalavx512f

计算 b 中下部单精度 (32-bit) 浮点元素的近似倒数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部从 a 到 dst 的上层元素的 3 个包装的元素。该近似值的最大相对误差小于 2^-14。

_mm_mask_rol_epi32Experimentalavx512f,avx512vl

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_rol_epi64Experimentalavx512f,avx512vl

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 对应元素 b 中指定的位数,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm_mask_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的对应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm_mask_ror_epi32Experimentalavx512f,avx512vl

将 X 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_ror_epi64Experimentalavx512f,avx512vl

将 X 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的对应元素中指定的位数,然后使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm_mask_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,并使用 writemask k 将结果存储在 dst 中 (如果没有使用相应的 mask 位,则从 src 复制元素放)。

_mm_mask_roundscale_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_roundscale_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_roundscale_round_sdExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入为 imm8 指定的分数位数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时,该元素从 src 复制),然后将上层元素从 a 复制到 dst 的上层元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_roundscale_round_ssExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时,该元素从 src 复制),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_roundscale_sdExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入为 imm8 指定的分数位数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时,该元素从 src 复制),然后将上层元素从 a 复制到 dst 的上层元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_roundscale_ssExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,使用写掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时,该元素从 src 复制),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_mask_rsqrt14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm_mask_rsqrt14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。该近似值的最大相对误差小于 2^-14。

_mm_mask_rsqrt14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似平方根,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),然后复制从 a 到 dst 的上元素的上元素。该近似值的最大相对误差小于 2^-14。

_mm_mask_rsqrt14_ssExperimentalavx512f

计算 b 中较低单精度 (32-bit) 浮点元素的近似倒数平方根,使用写掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时从 src 复制该元素),然后复制从 a 到 dst 的高位元素的前 3 个包装的元素。该近似值的最大相对误差小于 2^-14。

_mm_mask_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_scalef_round_sdExperimentalavx512f

使用 b 中的值缩放 a 中的包装双精度 (64-bit) 浮点元素,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。

_mm_mask_scalef_round_ssExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素 (未设置 mask bit 0 时从 src 复制该元素),并复制上部从 a 到 dst 的上层元素的 3 个包装的元素。

_mm_mask_scalef_sdExperimentalavx512f

使用 b 中的值缩放 a 中的包装双精度 (64-bit) 浮点元素,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。

_mm_mask_scalef_ssExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 的下部元素 (未设置 mask bit 0 时从 src 复制该元素),并复制上部从 a 到 dst 的上层元素的 3 个包装的元素。

_mm_mask_set1_epi8Experimentalavx512bw,avx512vl

使用写掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时从 src 复制元素)。

_mm_mask_set1_epi16Experimentalavx512bw,avx512vl

使用写掩码 k 向 dst 的所有元素广播 16 位整数 a (当未设置相应的掩码位时,从 src 复制元素)。

_mm_mask_set1_epi32Experimentalavx512f,avx512vl

使用写掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时从 src 复制元素)。

_mm_mask_set1_epi64Experimentalavx512f,avx512vl

使用写掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时从 src 复制元素)。

_mm_mask_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 writemask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 writemask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 writemask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm_mask_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm_mask_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 writemask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 复制)。

_mm_mask_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 writemask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 writemask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,从 src 复制元素)。

_mm_mask_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 writemask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素从 src` 复制)。

_mm_mask_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm_mask_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素从 a 中复制)。

_mm_mask_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 writemask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,从 a 复制元素)。

_mm_mask_shuffle_epi8Experimentalavx512bw,avx512vl

使用 b 中相应的 8 位元素中的控件在 128 位通道内对 a 中的 8 位整数进行打乱,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_shuffle_epi32Experimentalavx512f,avx512vl

使用 imm8 中的控件将 128 位通道中的 32 位整数随机排列,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_shuffle_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件对 128 位通道中的双精度 (64-bit) 浮点元素进行混洗,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_shuffle_psExperimentalavx512f,avx512vl

使用 imm8 中的控件 shuffle a 中的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素从 src 复制)。

_mm_mask_shufflehi_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位通道的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的高 64 位中,将 128 位通道的低 64 位从 a 复制到 dst,使用写掩码 k (当相应的掩码位不存在时,元素从 src 复制放)。

_mm_mask_shufflelo_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位通道的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的低 64 位中,并使用写掩码 k 将 128 位通道的高 64 位从 a 复制到 dst (当未使用相应的掩码位时,元素从 src 复制) 放)。

_mm_mask_sll_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数左移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sll_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sll_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数左移计数,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_slli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_slli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_slli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数向左移动 imm8,同时向零移动,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sllv_epi32Experimentalavx512f,avx512vl

将填充的 32 位整数向左移动计数中相应元素指定的数量,同时将其移位为零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sllv_epi64Experimentalavx512f,avx512vl

将填充的 64 位整数向左移动 count 中相应元素指定的数量,同时将其移位为零,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素将从 src 复制)。

_mm_mask_sqrt_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sqrt_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sqrt_round_sdExperimentalavx512f

计算 b 中下部双精度 (64-bit) 浮点元素的平方根,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。

_mm_mask_sqrt_round_ssExperimentalavx512f

计算 b 中下部单精度 (32-bit) 浮点元素的平方根,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部从 a 到 dst 的上层元素的 3 个包装的元素。

_mm_mask_sqrt_sdExperimentalavx512f

计算 b 中下部双精度 (64-bit) 浮点元素的平方根,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部元素从 a 到 dst 的高位元素。

_mm_mask_sqrt_ssExperimentalavx512f

计算 b 中下部单精度 (32-bit) 浮点元素的平方根,使用 writemask k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时从 src 复制该元素),并复制上部从 a 到 dst 的上层元素的 3 个包装的元素。

_mm_mask_sra_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数右移,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sra_epi32Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srai_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srai_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 count 中相应元素指定的数量,同时将符号位移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srav_epi32Experimentalavx512f,avx512vl

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srav_epi64Experimentalavx512f,avx512vl

在移入符号位的同时,将包装的 64 位整数向右移动计数中相应元素指定的数量,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srl_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srl_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srl_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移,同时移零,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srlv_epi32Experimentalavx512f,avx512vl

向右移动包装的 32 位整数整数 (由 count 中相应元素指定的数量),同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_srlv_epi64Experimentalavx512f,avx512vl

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时向零移位,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sub_epi8Experimentalavx512bw,avx512vl

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sub_epi16Experimentalavx512bw,avx512vl

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sub_epi32Experimentalavx512f,avx512vl

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sub_epi64Experimentalavx512f,avx512vl

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sub_pdExperimentalavx512f,avx512vl

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sub_psExperimentalavx512f,avx512vl

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_sub_round_sdExperimentalavx512f

从 a 中的较低双精度 (64-bit) 浮点元素中减去 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时,该元素是从 src 复制的 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_sub_round_ssExperimentalavx512f

从 a 中的较低单精度 (32-bit) 浮点元素减去 b 中的较低单精度 (32-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时从 src 复制该元素 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_sub_sdExperimentalavx512f

从 a 中的较低双精度 (64-bit) 浮点元素中减去 b 中较低的双精度 (64-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时,该元素是从 src 复制的 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_mask_sub_ssExperimentalavx512f

从 a 中的较低单精度 (32-bit) 浮点元素减去 b 中的较低单精度 (32-bit) 浮点元素,使用写掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 时从 src 复制该元素 (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_mask_subs_epi8Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 8 位整数减去 b 中的包装 8 位有符号整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_subs_epi16Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_subs_epu8Experimentalavx512bw,avx512vl

使用 a 饱和度将 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_subs_epu16Experimentalavx512bw,avx512vl

使用 a 饱和度从 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时从 src 复制元素)。

_mm_mask_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 32 位整数中的每一位,使用 src、a 和 b 中的相应位形成 imm8 的 3 位索引,并使用 writemask 将 imm8 中该位的值写入 dst 中的相应位 k 在 32 位粒度 (当相应的掩码位未设置时,从 src 复制 32 位元素)。

_mm_mask_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 64 位整数中的每一位,src、a 和 b 中的相应位用于形成 imm8 的 3 位索引,并使用 writemask 将 imm8 中该位的值写入 dst 中的相应位 k 在 64 位粒度 (当相应的掩码位未设置时,从 src 复制 64 位元素)。

_mm_mask_test_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_test_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm_mask_test_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm_mask_test_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_testn_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_testn_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm_mask_testn_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (服从写掩码 k)。

_mm_mask_testn_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位 (以写掩码 k 为准)。

_mm_mask_unpackhi_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm_mask_unpackhi_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm_mask_unpackhi_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm_mask_unpackhi_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_unpackhi_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm_mask_unpackhi_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm_mask_unpacklo_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 8 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm_mask_unpacklo_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 16 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm_mask_unpacklo_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织 32 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,从 src 复制元素)。

_mm_mask_unpacklo_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织 64 位整数,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_unpacklo_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包并交织双精度 (64-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm_mask_unpacklo_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包并交织单精度 (32-bit) 浮点元素,并使用 writemask k 将结果存储在 dst 中 (当未设置相应的 mask 位时从 src 复制元素)。

_mm_mask_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_mask_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用写掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将从 src 复制)。

_mm_maskz_abs_epi8Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 8 位整数的绝对值,并使用零掩码 k 将无符号结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_abs_epi16Experimentalavx512bw,avx512vl

计算 a 中包装的带符号的 16 位整数的绝对值,并使用零掩码 k (将未设置相应掩码位的元素清零) 将无符号结果存储在 dst 中。

_mm_maskz_abs_epi32Experimentalavx512f,avx512vl

计算 a 中包装的有符号 32 位整数的绝对值,并使用 zeromask k 将无符号结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_add_epi8Experimentalavx512bw,avx512vl

在 a 和 b 中添加包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数添加到 a 和 b 中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_epi64Experimentalavx512f,avx512vl

在 a 和 b 中添加包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_pdExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_psExperimentalavx512f,avx512vl

在 a 和 b 中添加包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_add_round_sdExperimentalavx512f

在 a 和 b 中添加较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后从 a 中复制较高的元素到 dst 的上层元素。

_mm_maskz_add_round_ssExperimentalavx512f

在 a 和 b 中添加较低的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素归零),并复制较高的 3 个包装的元素从 a 到 dst 的上层元素。

_mm_maskz_add_sdExperimentalavx512f

在 a 和 b 中添加较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后从 a 中复制较高的元素到 dst 的上层元素。

_mm_maskz_add_ssExperimentalavx512f

在 a 和 b 中添加较低的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素归零),并复制较高的 3 个包装的元素从 a 到 dst 的上层元素。

_mm_maskz_adds_epi8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_adds_epi16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的带符号的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_adds_epu8Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_adds_epu16Experimentalavx512bw,avx512vl

使用饱和度在 a 和 b 中添加包装的无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_alignr_epi8Experimentalavx512bw,avx512vl

将 a 和 b 中的 16 字节块对连接成一个 32 字节的临时结果,将结果右移 imm8 字节,并使用零掩码 k 将低 16 字节存储在 dst 中 (当未使用相应的掩码位时元素清零) 放)。

_mm_maskz_alignr_epi32Experimentalavx512f,avx512vl

将 a 和 b 连接成 32 字节的 immediate 结果,将结果右移 imm8 个 32 位元素,并使用 zeromask k 将低 16 字节 (4 个元素) 存储在 dst 中 (当相应的掩码位不存在时,元素被清零放)。

_mm_maskz_alignr_epi64Experimentalavx512f,avx512vl

将 a 和 b 连接成 32 字节的 immediate 结果,将结果右移 imm8 个 64 位元素,并使用 zeromask k 将低 16 字节 (2 个元素) 存储在 dst 中 (当相应的掩码位不存在时,元素被清零放)。

_mm_maskz_and_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_and_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_andnot_epi32Experimentalavx512f,avx512vl

计算 a 中包装的 32 位整数的按位 NOT,然后计算 b 中的 AND,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_andnot_epi64Experimentalavx512f,avx512vl

计算 a 中包装的 64 位整数的按位 NOT,然后与 b 计算 AND,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_avg_epu8Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 8 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_avg_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数进行平均,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_broadcastb_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 8 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm_maskz_broadcastd_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将低包装的 32 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm_maskz_broadcastq_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将低包装的 64 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm_maskz_broadcastss_psExperimentalavx512f,avx512vl

使用零掩码 k 将低单精度 (32-bit) 浮点元素从 a 广播到 dst 的所有元素 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_broadcastw_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm_maskz_compress_epi8Experimentalavx512vbmi2,avx512vl

将 a 中的活动 8 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm_maskz_compress_epi16Experimentalavx512vbmi2,avx512vl

将 a 中的活动 16 位整数 (它们各自的位设置在 zeromask k 中) 连续存储到 dst,并将其余元素设置为零。

_mm_maskz_compress_epi32Experimentalavx512f,avx512vl

将活动的 32 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm_maskz_compress_epi64Experimentalavx512f,avx512vl

将活动的 64 位整数连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的整数) 为 dst,并将其余元素设置为零。

_mm_maskz_compress_pdExperimentalavx512f,avx512vl

将活动的双精度 (64-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm_maskz_compress_psExperimentalavx512f,avx512vl

将活动的单精度 (32-bit) 浮点元素连续存储在 dst 中 (它们各自的位设置在零掩码 k 中的那些元素) 为 dst,并将其余元素设置为零。

_mm_maskz_conflict_epi32Experimentalavx512cd,avx512vl

使用零掩码 k (在未设置相应的掩码位时将元素清零),测试 a 的每个 32 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_maskz_conflict_epi64Experimentalavx512cd,avx512vl

使用零掩码 k (在未设置相应的掩码位时将元素清零),测试 a 的每个 64 位元素是否与所有其他元素在最接近最低有效位的相等性相等。每个元素的比较在 dst 中形成零扩展位 vector。

_mm_maskz_cvt_roundps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_cvt_roundsd_ssExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。
根据 rounding[3: 0] 参数进行舍入,该参数可以是以下之一:
(_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC) // 舍入到最接近的值,并抑制异常
(_MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC) // 向下取整并抑制异常
(_MM_FROUND_TO_POS_INF | _MM_FROUND_NO_EXC) // 向上取整并抑制异常
(_MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC) // 截断并抑制异常
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_cvt_roundss_sdExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后将上层元素从 a 复制到 dst 的上层元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_cvtepi8_epi16Experimentalavx512bw,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_cvtepi8_epi32Experimentalavx512f,avx512vl

使用符号将包装的 8 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi8_epi64Experimentalavx512f,avx512vl

将 a 的低 2 字节中的 8 位整数符号扩展为包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_cvtepi16_epi8Experimentalavx512bw,avx512vl

将带有 a 的包装的 16 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi16_epi32Experimentalavx512f,avx512vl

符号将包装的 16 位整数从 a 扩展为包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_cvtepi16_epi64Experimentalavx512f,avx512vl

使用符号将包装的 16 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi32_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带有截断的包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi32_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 32 位整数转换为带截断的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi32_epi64Experimentalavx512f,avx512vl

使用符号将包装的 32 位整数从 a 扩展为包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi32_pdExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_cvtepi32_psExperimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为包装的单精度 (32-bit) 浮点元素,并使用零掩码 k (未设置相应的掩码位时将元素清零) 将结果存储在 dst 中。

_mm_maskz_cvtepi64_epi8Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带截断的 8 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi64_epi16Experimentalavx512f,avx512vl

将带有 a 的包装的 64 位整数转换为带截断的 16 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装的 64 位整数转换为带截断的 32 位包装的整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtepu8_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数零扩展为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_cvtepu8_epi32Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数 a 的后 4 个字节到包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_cvtepu8_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 8 位整数在 a 的低 2 字节到包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_cvtepu16_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 16 位整数零扩展为包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_cvtepu16_epi64Experimentalavx512f,avx512vl

零扩展包装的无符号 16 位整数在 a 的低 4 字节到包装的 64 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_cvtepu32_epi64Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数零扩展为包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_cvtepu32_pdExperimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtne2ps_pbhExperimentalavx512bf16,avx512vl

将两个 vectors a 和 b 中的包装的单精度 (32-bit) 浮点元素转换为包装的 BF16 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在单个 vector dst 中 (当对应的掩码位不存在时,元素归零放)。

_mm_maskz_cvtpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm_maskz_cvtpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装双精度 (64-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm_maskz_cvtpd_psExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm_maskz_cvtph_psExperimentalavx512f,avx512vl

将 a 中的包装后的半精度 (16-bit) 浮点元素转换为包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvtps_epi32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm_maskz_cvtps_epu32Experimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素转换为包装的无符号 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm_maskz_cvtps_phExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素转换为包装的半精度 (16-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_cvtsd_ssExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_cvtsepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装有符号 16 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_cvtsepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 32 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_cvtsepi32_epi16Experimentalavx512f,avx512vl

将 A 中的包装有符号 32 位整数转换为带符号饱和的包装 16 位整数,并将结果存储在 dst 中。

_mm_maskz_cvtsepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装有符号 64 位整数转换为带符号饱和的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_cvtsepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_cvtsepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装带符号的 64 位整数转换为带符号饱和的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_cvtss_sdExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_cvttpd_epi32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。

_mm_maskz_cvttpd_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_cvttps_epi32Experimentalavx512f,avx512vl

将带有 a 的包装的单精度 (32-bit) 浮点元素转换为带有截断的包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_cvttps_epu32Experimentalavx512f,avx512vl

将 a 中的包装的双精度 (32-bit) 浮点元素转换为带截断的包装的无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_cvtusepi16_epi8Experimentalavx512bw,avx512vl

将 a 中的包装无符号 16 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_cvtusepi32_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_cvtusepi32_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 32 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_cvtusepi64_epi8Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_cvtusepi64_epi16Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_cvtusepi64_epi32Experimentalavx512f,avx512vl

将 a 中的包装无符号 64 位整数转换为具有无符号饱和的包装无符号 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_dbsad_epu8Experimentalavx512bw,avx512vl

计算 a 中与 b 中的无符号 8 位整数的四元组的绝对差之和 (SADs) 的总和,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将 16 位结果存储在 dst 中。对于每个 64 位通道,在四个 8 位四元组上执行四个 SAD。前两个 SAD 使用 a 中通道的低 8 位四元组,而后两个 SAD 使用 a 中通道的较高 8 位四元组。根据 imm8 中的控件,从 128 位通道中选择 b 中的四元组,并且每个 64 位通道中的每个 SAD 使用 8 位偏移量的选定四元组。

_mm_maskz_div_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_div_psExperimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素除以 b 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_div_round_sdExperimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素除以 b 中的较低双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 为 0 时,该元素归零 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_div_round_ssExperimentalavx512f

将 a 中的下部单精度 (32-bit) 浮点元素除以 b 中的下部单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当掩码位 0 为 0 时,该元素清零) (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_div_sdExperimentalavx512f

将 a 中的较低双精度 (64-bit) 浮点元素除以 b 中的较低双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 为 0 时,该元素归零 (未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_div_ssExperimentalavx512f

将 a 中的下部单精度 (32-bit) 浮点元素除以 b 中的下部单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当掩码位 0 为 0 时,该元素清零) (未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_dpbf16_psExperimentalavx512bf16,avx512vl

计算 a 和 b 中 BF16 (16-bit) 浮点对的点积,将中间单精度 (32-bit) 浮点元素与 src 中的元素进行累加,并将结果存储在 dst 中使用 zeromask k (当对应的掩码为位未设置)。

_mm_maskz_dpbusd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数相加,并将包装的 32 位结果使用 zeromask k 存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_dpbusds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 4 对相邻的无符号 8 位整数组与 b 中的相应有符号 8 位整数相乘,产生 4 个中间有符号 16 位结果。将这 4 个结果与 src 中对应的 32 位整数用带符号饱和求和,并将包装的 32 位结果用 zeromask k 存储在 dst 中 (当对应的掩码位未设置时,元素被清零)。

_mm_maskz_dpwssd_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。将这 2 个结果与 src 中对应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_dpwssds_epi32Experimentalavx512vnni,avx512vl

将 a 中的 2 对相邻的有符号 16 位整数组与 b 中的相应 16 位整数相乘,产生 2 个中间有符号 32 位结果。使用符号饱和将这 2 个结果与 src 中相应的 32 位整数相加,并使用 zeromask k 将包装的 32 位结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_expand_epi8Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 8 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_expand_epi16Experimentalavx512vbmi2,avx512vl

从 a 加载连续的活动 16 位整数 (那些在掩码 k 中设置了相应位的整数),并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_expand_epi32Experimentalavx512f,avx512vl

从 a 中加载连续的有效 32 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_expand_epi64Experimentalavx512f,avx512vl

从 a 中加载连续的有效 64 位整数 (它们各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_expand_pdExperimentalavx512f,avx512vl

从 a 中加载连续的活动双精度 (64-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_expand_psExperimentalavx512f,avx512vl

从 a 中加载连续的活动单精度 (32-bit) 浮点元素 (其各自的位在掩码 k 中设置),并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_fixupimm_pdExperimentalavx512f,avx512vl

使用 c 中的包装 64 位整数修复 a 和 b 中的包装双精度 (64-bit) 浮点元素,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的 mask 位时,元素清零)。imm8 用于设置所需的标志报告。

_mm_maskz_fixupimm_psExperimentalavx512f,avx512vl

使用 c 中的包装 32 位整数修复 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。imm8 用于设置所需的标志报告。

_mm_maskz_fixupimm_round_sdExperimentalavx512f

使用 c 中的较低 64 位整数修复 a 和 b 中的较低双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 的较低元素中 (当不使用掩码位 0 时该元素清零) set),然后将上层元素从 a 复制到 dst 的上层元素。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_fixupimm_round_ssExperimentalavx512f

使用 c 中的较低 32 位整数固定 a 和 b 中的较低单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 的较低元素中 (当未使用掩码 bit 0 时该元素被清零) 设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。imm8 用于设置所需的标志报告。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_fixupimm_sdExperimentalavx512f

使用 c 中的较低 64 位整数修复 a 和 b 中的较低双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 的较低元素中 (当不使用掩码位 0 时该元素清零) set),然后将上层元素从 a 复制到 dst 的上层元素。imm8 用于设置所需的标志报告。

_mm_maskz_fixupimm_ssExperimentalavx512f

使用 c 中的较低 32 位整数固定 a 和 b 中的较低单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 的较低元素中 (当未使用掩码 bit 0 时该元素被清零) 设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。imm8 用于设置所需的标志报告。

_mm_maskz_fmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_fmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_fmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后使用零掩码 k 将中间结果与较低元素 in c. Store 的结果加到 dst 较低元素中 (当未设置掩码位 0 时该元素归零) ),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_fmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用零掩码 k 将中间结果与较低元素 in c. Store 的中间结果相加到 dst 较低元素中 (未设置掩码位 0 时该元素归零) ),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_fmadd_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后使用零掩码 k 将中间结果与较低元素 in c. Store 的结果加到 dst 较低元素中 (当未设置掩码位 0 时该元素归零) ),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_fmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用零掩码 k 将中间结果与较低元素 in c. Store 的中间结果相加到 dst 较低元素中 (未设置掩码位 0 时该元素归零) ),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_fmaddsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm_maskz_fmaddsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的单精度 (32-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或相减,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm_maskz_fmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,从中间结果中减去 c 中的包装的元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下元素中 (当掩码位 0 未设置时元素被清零),并将上元素从 a 复制到 dst 的上元素。

_mm_maskz_fmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下元素中 (当未设置掩码位 0 时,元素被清零),并将上 3 个打包元素从 a 复制到 dst 的上元素。

_mm_maskz_fmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下元素中 (当掩码位 0 未设置时元素被清零),并将上元素从 a 复制到 dst 的上元素。

_mm_maskz_fmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下元素中 (当未设置掩码位 0 时,元素被清零),并将上 3 个打包元素从 a 复制到 dst 的上元素。

_mm_maskz_fmsubadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装后的双精度 (64-bit) 浮点元素相乘,或者将 C to/from 中的包装后的元素相加或减去,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm_maskz_fmsubadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,或者将 C from/to 中的包装元素相减并相加,得到中间结果,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm_maskz_fnmadd_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fnmadd_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,将取反的中间结果添加到 c 中的包装元素中,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_fnmadd_round_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用零掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果加到 dst 的较低元素中 (当未使用掩码位 0 时该元素清零) set),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_fnmadd_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用零掩码 k 将求反的中间结果与较低元素 in c. Store 的结果相加到 dst 的较低元素中 (当未使用掩码位 0 时该元素清零) 设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_fnmadd_sdExperimentalavx512f

将 a 和 b 中的较低的双精度 (64-bit) 浮点元素相乘,然后使用零掩码 k 将求反的中间结果与较低的元素 in c. Store 的结果加到 dst 的较低元素中 (当未使用掩码位 0 时该元素清零) set),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_fnmadd_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后使用零掩码 k 将求反的中间结果与较低元素 in c. Store 的结果相加到 dst 的较低元素中 (当未使用掩码位 0 时该元素清零) 设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_fnmsub_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装双精度 (64-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fnmsub_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装单精度 (32-bit) 浮点元素相乘,从取反的中间结果中减去 c 中的包装元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_fnmsub_round_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 中 (当未设置掩码位 0 时元素被清零),并将上元素从 a 复制到 dst 的上元素。

_mm_maskz_fnmsub_round_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下元素中 (当未设置掩码位 0 时,元素被清零),并将上 3 个打包元素从 a 复制到 dst 的上元素。

_mm_maskz_fnmsub_sdExperimentalavx512f

将 a 和 b 中的较低双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 中 (当未设置掩码位 0 时元素被清零),并将上元素从 a 复制到 dst 的上元素。

_mm_maskz_fnmsub_ssExperimentalavx512f

将 a 和 b 中的较低单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的较低元素。使用 zeromask k 将结果存储在 dst 的下元素中 (当未设置掩码位 0 时,元素被清零),并将上 3 个打包元素从 a 复制到 dst 的上元素。

_mm_maskz_getexp_pdExperimentalavx512f,avx512vl

将 a 中每个包装的双精度 (64-bit) 浮点元素的指数转换为代表整数指数的双精度 (64-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当相应的 mask 位为零时,元素被清零未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm_maskz_getexp_psExperimentalavx512f,avx512vl

将 a 中每个包装的单精度 (32-bit) 浮点元素的指数转换为代表整数指数的单精度 (32-bit) 浮点数,并使用 zeromask k 将结果存储在 dst 中 (当相应的 mask 位为零时,元素被清零未设置)。本质上,此内联函数为每个元素计算 floor(log2(x))。

_mm_maskz_getexp_round_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为表示整数指数的双精度 (64-bit) 浮点数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 未设置),然后将较高的元素从 a 复制到 dst 的较高的元素。本质上,此内联函数计算下部元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_getexp_round_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 未设置),并将高 3 个包装的元素从 a 复制到 dst 的高元素。本质上,此内联函数计算下部元素的 floor(log2(x))。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_getexp_sdExperimentalavx512f

将 b 中较低的双精度 (64-bit) 浮点元素的指数转换为表示整数指数的双精度 (64-bit) 浮点数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 未设置),然后将较高的元素从 a 复制到 dst 的较高的元素。本质上,此内联函数计算下部元素的 floor(log2(x))。

_mm_maskz_getexp_ssExperimentalavx512f

将 b 中较低的单精度 (32-bit) 浮点元素的指数转换为表示整数指数的单精度 (32-bit) 浮点数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码位 0 未设置),并将高 3 个包装的元素从 a 复制到 dst 的高元素。本质上,此内联函数计算下部元素的 floor(log2(x))。

_mm_maskz_getmant_pdExperimentalavx512f,avx512vl

将 a 中的包装的双精度 (64-bit) 浮点元素的尾数标准化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm_maskz_getmant_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素的尾数规格化,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1

_mm_maskz_getmant_round_sdExperimentalavx512f

标准化 b 中较低的双精度 (64-bit) 浮点元素的尾数,使用零掩码 k 将结果存储在 dst 的较低元素中 (未设置掩码位 0 时该元素归零),然后从中复制较高元素。a 到 dst 的高位元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_getmant_round_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后复制高位 3 从 a 到 dst 的高位元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_getmant_sdExperimentalavx512f

标准化 b 中较低的双精度 (64-bit) 浮点元素的尾数,使用零掩码 k 将结果存储在 dst 的较低元素中 (未设置掩码位 0 时该元素归零),然后从中复制较高元素。a 到 dst 的高位元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_getmant_ssExperimentalavx512f

标准化 b 中较低单精度 (32-bit) 浮点元素的尾数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后复制高位 3 从 a 到 dst 的高位元素。此内联函数本质上计算 ± (2 ^ k) * | x.significand |,其中 k 取决于由 interv 定义的间隔范围,而符号取决于 sc 和源符号。
尾数被标准化为由 interv 指定的间隔,该间隔可以采用以下值:
_MM_MANT_NORM_1_2 // interval [1, 2)
_MM_MANT_NORM_p5_2 // interval [0.5, 2)
_MM_MANT_NORM_p5_1 // interval [0.5, 1)
_MM_MANT_NORM_p75_1p5 // interval [0.75, 1.5)
该符号由 sc 确定,可以采用以下值:
_MM_MANT_SIGN_src // sign = sign(src)
_MM_MANT_SIGN_zero // sign = 0
_MM_MANT_SIGN_nan // dst = NaN if sign(src) = 1
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_gf2p8affine_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的包装字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2^8 上计算 a * x + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_maskz_gf2p8affineinv_epi64_epi8Experimentalavx512gfni,avx512bw,avx512vl

对 x 中的反向包装的字节执行仿射变换。 也就是说,对于每个包装的字节,在 Galois 字段 2 ^ 8 上计算 a * inv (x) + b,其中 a 是 8x8 位矩阵,b 是恒定 8 位 immediate 数。

_mm_maskz_gf2p8mul_epi8Experimentalavx512gfni,avx512bw,avx512vl

在包装的字节上执行 GF(2^8) 乘法。 该字段以多项式表示,具有约数多项式 x^8 + x^4 + x^3 + x + 1。

_mm_maskz_lzcnt_epi32Experimentalavx512cd,avx512vl

计算 a 中每个包装的 32 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_lzcnt_epi64Experimentalavx512cd,avx512vl

计算 a 中每个包装的 64 位整数中前导零位的数目,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_madd_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。水平添加相邻的中间 32 位整数对,并使用 zeromask k 将结果打包到 dst (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_maddubs_epi16Experimentalavx512bw,avx512vl

将 a 中的包装无符号 8 位整数与 b 中的包装有符号 8 位整数相乘,生成中间有符号的 16 位整数。水平添加相邻的中间有符号 16 位整数对,并使用 zeromask k 将饱和结果打包到 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_max_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm_maskz_max_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm_maskz_max_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm_maskz_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并使用零掩码 k 将包装的最大值存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_max_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm_maskz_max_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm_maskz_max_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm_maskz_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm_maskz_max_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm_maskz_max_psExperimentalavx512f,avx512vl

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最大值存储在 dst 中。

_mm_maskz_max_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将最大值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后从中复制较高元素。a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_max_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用零掩码 k 将最大值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制包装后的高 3 位从 a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_max_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将最大值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后从中复制较高元素。a 到 dst 的高位元素。

_mm_maskz_max_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用零掩码 k 将最大值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制包装后的高 3 位从 a 到 dst 的高位元素。

_mm_maskz_min_epi8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号的 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm_maskz_min_epi16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的带符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm_maskz_min_epi32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm_maskz_min_epu8Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 8 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm_maskz_min_epu16Experimentalavx512bw,avx512vl

比较 a 和 b 中包装的无符号 16 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm_maskz_min_epu32Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 32 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm_maskz_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm_maskz_min_pdExperimentalavx512f,avx512vl

比较 a 和 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm_maskz_min_psExperimentalavx512f,avx512vl

比较 a 和 b 中的包装单精度 (32-bit) 浮点元素,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将包装的最小值存储在 dst 中。

_mm_maskz_min_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后从中复制较高元素。a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_min_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用零掩码 k 将最小值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制包装后的高 3 位从 a 到 dst 的高位元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_maskz_min_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,使用零掩码 k 将最小值存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素清零),然后从中复制较高元素。a 到 dst 的高位元素。

_mm_maskz_min_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,使用零掩码 k 将最小值存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制包装后的高 3 位从 a 到 dst 的高位元素。

_mm_maskz_mov_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将包装的 8 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_mov_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将包装的 16 位整数从 a 移到 dst (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_mov_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将包装的 32 位整数从 a 移至 dst (未设置相应的掩码位时将元素清零)。

_mm_maskz_mov_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将包装的 64 位整数从 a 移到 dst (未设置相应的掩码位时,元素将清零)。

_mm_maskz_mov_pdExperimentalavx512f,avx512vl

使用零掩码 k 将包装的双精度 (64-bit) 浮点元素从 a 移到 dst (未设置相应的掩码位时将元素清零)。

_mm_maskz_mov_psExperimentalavx512f,avx512vl

使用零掩码 k 将包装的单精度 (32-bit) 浮点元素从 a 移到 dst (未设置相应的掩码位时将元素清零)。

_mm_maskz_move_sdExperimentalavx512f

使用零掩码 k 将较低的双精度 (64-bit) 浮点元素从 b 移动到 dst 的较低元素 (未设置掩码位 0 时将该元素清零),然后将较高的元素从 a 复制到 dst 的较高元素。

_mm_maskz_move_ssExperimentalavx512f

使用零掩码 k 将较低的单精度 (32-bit) 浮点元素从 b 移动到 dst 的较低元素 (未设置掩码位 0 时将该元素清零),然后将较高的 3 个包装的元素从 a 复制到较高的元素 dst。

_mm_maskz_movedup_pdExperimentalavx512f,avx512vl

从 a 复制偶数索引的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_movehdup_psExperimentalavx512f,avx512vl

从 a 复制奇数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_moveldup_psExperimentalavx512f,avx512vl

从 a 复制偶数索引的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mul_epi32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低位有符号 32 位整数相乘,并使用零掩码 k 将有符号的 64 位结果存储在 dst 中 (未设置相应的掩码位时将元素清零)。

_mm_maskz_mul_epu32Experimentalavx512f,avx512vl

将 a 和 b 中每个包装的 64 位元素的低无符号 32 位整数相乘,并使用零掩码 k 将无符号 64 位结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_mul_pdExperimentalavx512f,avx512vl

将 a 和 b 中的包装的双精度 (64-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mul_psExperimentalavx512f,avx512vl

将 a 和 b 中的包装的单精度 (32-bit) 浮点元素相乘,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_mul_round_sdExperimentalavx512f

将 a 和 b 中的低位双精度 (64-bit) 浮点元素相乘,使用零掩码 k 将结果存储在 dst 的低位元素中 (当未设置掩码位 0 时该元素归零),然后从 a 中复制高位元素到 dst 的上层元素。

_mm_maskz_mul_round_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),并复制上部 3 个包装的元素从 a 到 dst 的上层元素。

_mm_maskz_mul_sdExperimentalavx512f

将 a 和 b 中的低位双精度 (64-bit) 浮点元素相乘,使用零掩码 k 将结果存储在 dst 的低位元素中 (当未设置掩码位 0 时该元素归零),然后从 a 中复制高位元素到 dst 的上层元素。

_mm_maskz_mul_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),并复制上部 3 个包装的元素从 a 到 dst 的上层元素。

_mm_maskz_mulhi_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的带符号的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_mulhi_epu16Experimentalavx512bw,avx512vl

将 a 和 b 中包装的无符号 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的高 16 位存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_mulhrs_epi16Experimentalavx512bw,avx512vl

在 a 和 b 中乘以包装的带符号的 16 位整数,产生中间的带符号的 32 位整数。将每个中间整数截断为 18 个最高有效位,通过加 1 舍入,并使用 zeromask k 将位 [16:1] 存储到 dst (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_mullo_epi16Experimentalavx512bw,avx512vl

将 a 和 b 中的包装的 16 位整数相乘,生成中间的 32 位整数,并使用零掩码 k 将中间整数的低 16 位存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_mullo_epi32Experimentalavx512f,avx512vl

将 a 和 b 中的包装的 32 位整数相乘,生成中间 64 位整数,并使用零掩码 k (在未设置相应的掩码位时将元素清零) 将中间整数的低 32 位存储在 dst 中。

_mm_maskz_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并使用 zeromask k (元素当相应的屏蔽位未设置时被清零)。

_mm_maskz_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_packs_epi16Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_packs_epi32Experimentalavx512bw,avx512vl

使用带符号的饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_packus_epi16Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 16 位整数从 a 和 b 转换为包装的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_packus_epi32Experimentalavx512bw,avx512vl

使用无符号饱和度将包装的带符号的 32 位整数从 a 和 b 转换为包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_permute_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道内对双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permute_psExperimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道内对单精度 (32-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutevar_pdExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位通道内将 a 中的双精度 (64-bit) 浮点元素进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutevar_psExperimentalavx512f,avx512vl

使用 b 中的控件在 128 位通道内将 a 的单精度 (32-bit) 浮点元素打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨通道打乱,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_permutex2var_epi16Experimentalavx512bw,avx512vl

使用相应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 32 位整数进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutex2var_epi64Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 64 位整数进行混洗,并使用 zeromask k (未设置相应的 mask 位时将元素清零) 将结果存储在 dst 中。

_mm_maskz_permutex2var_pdExperimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的通道 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引在跨通道的 a 中打乱 8 位整数,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨通道中对 16 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm_maskz_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm_maskz_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm_maskz_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm_maskz_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rcp14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似倒数,使用零掩码 k 将结果存储在 dst 的较低元素中 (未设置掩码位 0 时该元素归零),然后复制较高元素从 a 到 dst 的高位元素。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rcp14_ssExperimentalavx512f

计算 b 中较低的单精度 (32-bit) 浮点元素的近似倒数,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素归零),并复制较高的 3 从 a 到 dst 的上层元素的包装的元素。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rol_epi32Experimentalavx512f,avx512vl

将每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_rol_epi64Experimentalavx512f,avx512vl

将每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm_maskz_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm_maskz_ror_epi32Experimentalavx512f,avx512vl

将 X 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_ror_epi64Experimentalavx512f,avx512vl

将 X 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将清零)。

_mm_maskz_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm_maskz_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零) )。

_mm_maskz_roundscale_pdExperimentalavx512f,avx512vl

将 x 中的包装双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_roundscale_psExperimentalavx512f,avx512vl

将 a 中的包装单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_roundscale_round_sdExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时该元素清零),并将上一个元素从 a 复制到 dst 的上一个元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_roundscale_round_ssExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入为 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时该元素清零),并将上面的 3 个包装的元素从 a 复制到 dst 的上面的元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_roundscale_sdExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时该元素清零),并将上一个元素从 a 复制到 dst 的上一个元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_roundscale_ssExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入为 imm8 指定的分数位数,并使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置掩码位 0 时该元素清零),并将上面的 3 个包装的元素从 a 复制到 dst 的上面的元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_maskz_rsqrt14_pdExperimentalavx512f,avx512vl

计算 a 中的包装的双精度 (64-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rsqrt14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rsqrt14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似倒数平方根,使用零掩码 k 将结果存储在 dst 的较低元素中 (未设置掩码位 0 时该元素归零),然后复制从 a 到 dst 的上元素的上元素。该近似值的最大相对误差小于 2^-14。

_mm_maskz_rsqrt14_ssExperimentalavx512f

计算 b 中较低单精度 (32-bit) 浮点元素的近似倒数平方根,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置掩码位 0 时该元素归零),然后复制从 a 到 dst 的上层元素的上 3 个包装的元素。该近似值的最大相对误差小于 2^-14。

_mm_maskz_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_scalef_round_sdExperimentalavx512f

使用 b 中的值缩放 a 中的包装双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后复制上部元素从 a 到 dst 的高位元素。

_mm_maskz_scalef_round_ssExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),并复制上部 3 从 a 到 dst 的上层元素的包装的元素。

_mm_maskz_scalef_sdExperimentalavx512f

使用 b 中的值缩放 a 中的包装双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后复制上部元素从 a 到 dst 的高位元素。

_mm_maskz_scalef_ssExperimentalavx512f

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),并复制上部 3 从 a 到 dst 的上层元素的包装的元素。

_mm_maskz_set1_epi8Experimentalavx512bw,avx512vl

使用零掩码 k 将 8 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm_maskz_set1_epi16Experimentalavx512bw,avx512vl

使用零掩码 k 将低包装的 16 位整数从 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm_maskz_set1_epi32Experimentalavx512f,avx512vl

使用零掩码 k 将 32 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm_maskz_set1_epi64Experimentalavx512f,avx512vl

使用零掩码 k 将 64 位整数 a 广播到 dst 的所有元素 (未设置相应的掩码位时将元素清零)。

_mm_maskz_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并使用 zeromask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的相应元素中指定的数量,并使用 zeromask k 将高 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并使用 zeromask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 16 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 32 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的相应元素中指定的数量,并使用 zeromask k 将低 64 位存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shuffle_epi8Experimentalavx512bw,avx512vl

根据 b 的相应 8 位元素中的打乱控制掩码对 a 中的包装 8 位整数进行打乱,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_shuffle_epi32Experimentalavx512f,avx512vl

使用 imm8 中的控件在 128 位通道中的 32 位整数中混洗 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shuffle_pdExperimentalavx512f,avx512vl

使用 imm8 中的控件对 128 位通道内的双精度 (64-bit) 浮点元素进行混洗,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_shuffle_psExperimentalavx512f,avx512vl

使用 imm8 中的控件对 a 中的单精度 (32-bit) 浮点元素进行打乱,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素会被清零)。

_mm_maskz_shufflehi_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位通道的高 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的高 64 位中,将 128 位通道的低 64 位从 a 复制到 dst,使用 zeromask k (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_shufflelo_epi16Experimentalavx512bw,avx512vl

使用 imm8 中的控件在 a 的 128 位通道的低 64 位中对 16 位整数进行打乱。将结果存储在 dst 的 128 位通道的低 64 位中,并使用写掩码 k 将 128 位通道的高 64 位从 a 复制到 dst (当未使用相应的掩码位时,元素从 src 复制) 放)。

_mm_maskz_sll_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数左移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sll_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sll_epi64Experimentalavx512f,avx512vl

将填充的 64 位整数左移计数,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_slli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_slli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_slli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数左移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数左移由 count 中的相应元素指定的数量,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sllv_epi32Experimentalavx512f,avx512vl

在将移位的 32 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sllv_epi64Experimentalavx512f,avx512vl

在将移位的 64 位整数左移零时,将其对应计数指定的数量左移,然后使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sqrt_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的平方根,并使用零掩码 k (将结果置零,当未设置相应的掩码位时将元素清零) 将结果存储在 dst 中。

_mm_maskz_sqrt_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的平方根,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sqrt_round_sdExperimentalavx512f

计算 b 中下部双精度 (64-bit) 浮点元素的平方根,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后复制上部元素从 a 到 dst 的高位元素。

_mm_maskz_sqrt_round_ssExperimentalavx512f

计算 b 中较低的单精度 (32-bit) 浮点元素的平方根,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制高 3 从 a 到 dst 的上层元素的包装的元素。

_mm_maskz_sqrt_sdExperimentalavx512f

计算 b 中下部双精度 (64-bit) 浮点元素的平方根,使用零掩码 k 将结果存储在 dst 的下部元素中 (当未设置 mask bit 0 时该元素清零),然后复制上部元素从 a 到 dst 的高位元素。

_mm_maskz_sqrt_ssExperimentalavx512f

计算 b 中较低的单精度 (32-bit) 浮点元素的平方根,使用零掩码 k 将结果存储在 dst 的较低元素中 (当未设置 mask bit 0 时该元素清零),然后复制高 3 从 a 到 dst 的上层元素的包装的元素。

_mm_maskz_sra_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按计数右移,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sra_epi32Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时右移计数包装的 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srai_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srai_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移由 count 中的相应元素指定的数量,同时将符号位移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srav_epi32Experimentalavx512f,avx512vl

在将符号位移位的同时,将已包装的 32 位整数向右移动计数中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srav_epi64Experimentalavx512f,avx512vl

在移入符号位的同时,将包装的 64 位整数右移由 count 中相应元素指定的数量,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srl_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srl_epi32Experimentalavx512f,avx512vl

将移位的 32 位整数右移,同时移零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srl_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移计数,同时移入零,并使用 zeromask k 将结果存储在 dst 中 (当相应的掩码位未设置时,元素被清零)。

_mm_maskz_srli_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srli_epi32Experimentalavx512f,avx512vl

将包装的 32 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srli_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srlv_epi32Experimentalavx512f,avx512vl

向右移动已包装的 32 位整数,偏移量为相应元素在计数中指定的数量,同时向零移位,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_srlv_epi64Experimentalavx512f,avx512vl

向右移位包装的 64 位整数,其数量为计数中相应元素指定的数量,同时移位为零,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_sub_epi8Experimentalavx512bw,avx512vl

从 a 中的包装 8 位整数中减去 b 中的包装 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_sub_epi16Experimentalavx512bw,avx512vl

从 a 中的包装的 16 位整数中减去 b 中的包装的 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_sub_epi32Experimentalavx512f,avx512vl

从 a 中的包装 32 位整数中减去 b 中的包装 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_sub_epi64Experimentalavx512f,avx512vl

从 a 中的包装 64 位整数中减去 b 中的包装 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sub_pdExperimentalavx512f,avx512vl

从 a 中的包装的双精度 (64-bit) 浮点元素中减去 b 中的包装的双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sub_psExperimentalavx512f,avx512vl

将 b 中的包装后的单精度 (32-bit) 浮点元素减去 a 中的包装后的单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_sub_round_sdExperimentalavx512f

从 a 中的较低双精度 (64-bit) 浮点元素中减去 b 中的较低双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码 bit 0 为 0 时,该元素将被清零。(未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_sub_round_ssExperimentalavx512f

从 a 中的较低单精度 (32-bit) 浮点元素中减去 b 中的较低单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码 bit 0 为 0 时,该元素将被清零。(未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_sub_sdExperimentalavx512f

从 a 中的较低双精度 (64-bit) 浮点元素中减去 b 中的较低双精度 (64-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码 bit 0 为 0 时,该元素将被清零。(未设置),然后将上层元素从 a 复制到 dst 的上层元素。

_mm_maskz_sub_ssExperimentalavx512f

从 a 中的较低单精度 (32-bit) 浮点元素中减去 b 中的较低单精度 (32-bit) 浮点元素,使用零掩码 k 将结果存储在 dst 的较低元素中 (当掩码 bit 0 为 0 时,该元素将被清零。(未设置),然后将前 3 个包装的元素从 a 复制到 dst 的高元素。

_mm_maskz_subs_epi8Experimentalavx512bw,avx512vl

使用饱和度从包装的 8 位整数中减去 b 中的包装有符号的 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_subs_epi16Experimentalavx512bw,avx512vl

使用饱和度将 b 中的包装 16 位整数减去 b 中的包装有符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_subs_epu8Experimentalavx512bw,avx512vl

使用 a 饱和度从 b 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_subs_epu16Experimentalavx512bw,avx512vl

使用 a 饱和度将 b 中的包装无符号 16 位整数减去 b 中的包装无符号 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 32 位整数中的每一位,来自 a、b 和 c 的相应位用于形成 imm8 的 3 位索引,并使用零掩码将 imm8 中该位的值写入 dst 中的相应位 k 在 32 位粒度 (当未设置相应的掩码位时,32 位元素被清零)。

_mm_maskz_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 64 位整数中的每一位,来自 a、b 和 c 的相应位用于在 imm8 中形成 3 位索引,并使用零掩码将 imm8 中该位的值写入 dst 中的相应位 k 在 64 位粒度 (当未设置相应的掩码位时,64 位元素将被清零)。

_mm_maskz_unpackhi_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_unpackhi_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的高半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_unpackhi_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_unpackhi_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_unpackhi_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_unpackhi_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的高半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_unpacklo_epi8Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 8 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_unpacklo_epi16Experimentalavx512bw,avx512vl

从 a 和 b 中每个 128 位通道的下半部分拆包和交织 16 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_unpacklo_epi32Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织 32 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_unpacklo_epi64Experimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织 64 位整数,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时元素清零)。

_mm_maskz_unpacklo_pdExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织双精度 (64-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_unpacklo_psExperimentalavx512f,avx512vl

从 a 和 b 中每个 128 位通道的下半部分解包和交织单精度 (32-bit) 浮点元素,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素清零)。

_mm_maskz_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_maskz_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并使用零掩码 k 将结果存储在 dst 中 (当未设置相应的掩码位时,元素将被清零)。

_mm_max_epi64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的带符号的 64 位整数,并将包装的最大值存储在 dst 中。

_mm_max_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最大值存储在 dst 中。

_mm_max_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,将最大值存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_max_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,将最大值存储在 dst 的较低元素中,并将较高的 3 个包装的元素从 a 复制到 dst 的较高元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_min_epu64Experimentalavx512f,avx512vl

比较 a 和 b 中包装的无符号 64 位整数,并将包装的最小值存储在 dst 中。

_mm_min_round_sdExperimentalavx512f

比较 a 和 b 中较低的双精度 (64-bit) 浮点元素,将最小值存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_min_round_ssExperimentalavx512f

比较 a 和 b 中较低的单精度 (32-bit) 浮点元素,将最小值存储在 dst 的较低元素中,并将较高的 3 个包装的元素从 a 复制到 dst 的较高元素。
可以通过在 sae 参数中传递 _MM_FROUND_NO_EXC 来抑制异常。

_mm_movepi8_maskExperimentalavx512bw,avx512vl

根据 a 中相应包装的 8 位整数的最高有效位设置掩码寄存器 k 的每个位。

_mm_movepi16_maskExperimentalavx512bw,avx512vl

根据 a 中相应的包装的 16 位整数的最高有效位设置掩码寄存器 k 的每一位。

_mm_movm_epi8Experimentalavx512bw,avx512vl

根据 k 中相应位的值,将 dst 中每个包装的 8 位整数设置为全 1 或全 0。

_mm_movm_epi16Experimentalavx512bw,avx512vl

根据 k 中相应位的值,将 dst 中每个包装的 16 位整数设置为全 1 或全 0。

_mm_mul_round_sdExperimentalavx512f

将 a 和 b 中的下部双精度 (64-bit) 浮点元素相乘,将结果存储在 dst 的下部元素中,然后将 a 的上部元素复制到 dst 的上部元素。

_mm_mul_round_ssExperimentalavx512f

将 a 和 b 中的下部单精度 (32-bit) 浮点元素相乘,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_multishift_epi64_epi8Experimentalavx512vbmi,avx512vl

对于 b 中的每个 64 位元素,使用 a 的相应 64 位元素内的字节粒度移位控制选择 8 个未对齐的字节,并将 8 个组装字节存储到 dst 的相应 64 位元素。

_mm_or_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位或,并将结果存储在 dst 中。

_mm_or_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位或,并将结果存储在 dst 中。

_mm_permutex2var_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应选择器和索引将 a 和 b 中的 8 位整数跨通道打乱,并将结果存储在 dst 中。

_mm_permutex2var_epi16Experimentalavx512bw,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm_permutex2var_epi32Experimentalavx512f,avx512vl

使用对应的选择器和 idx 中的索引在通道中的 a 和 b 中随机排列 32 位整数,并将结果存储在 dst 中。

_mm_permutex2var_epi64Experimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中随机排列 64 位整数,并将结果存储在 dst 中。

_mm_permutex2var_pdExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对双精度 (64-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm_permutex2var_psExperimentalavx512f,avx512vl

使用 idx 中的相应选择器和索引在通道中的 a 和 b 中对单精度 (32-bit) 浮点元素进行混洗,并将结果存储在 dst 中。

_mm_permutexvar_epi8Experimentalavx512vbmi,avx512vl

使用 idx 中的相应索引将 a 中的 8 位整数打乱到通道中,并将结果存储在 dst 中。

_mm_permutexvar_epi16Experimentalavx512bw,avx512vl

使用 idx 中的相应索引在跨通道中对 16 位整数进行打乱,并将结果存储在 dst 中。

_mm_popcnt_epi8Experimentalavx512bitalg,avx512vl

对于每个包装的 8 位整数 maps,该值等于逻辑 1 位的数量。

_mm_popcnt_epi16Experimentalavx512bitalg,avx512vl

对于每个包装的 16 位整数 maps,该值等于逻辑 1 位的数量。

_mm_popcnt_epi32Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 32 位整数 maps,该值等于逻辑 1 位的数量。

_mm_popcnt_epi64Experimentalavx512vpopcntdq,avx512vl

对于每个包装的 64 位整数 maps,该值均等于逻辑 1 位的数量。

_mm_rcp14_pdExperimentalavx512f,avx512vl

计算 a 中包装的双精度 (64-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm_rcp14_psExperimentalavx512f,avx512vl

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并将结果存储在 dst 中。该近似值的最大相对误差小于 2^-14。

_mm_rcp14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似倒数,将结果存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。该近似值的最大相对误差小于 2^-14。

_mm_rcp14_ssExperimentalavx512f

计算 b 中较低的单精度 (32-bit) 浮点元素的近似倒数,将结果存储在 dst 的较低元素中,并将高 3 个包装的元素从 a 复制到 dst 的较高元素。该近似值的最大相对误差小于 2^-14。

_mm_rol_epi32Experimentalavx512f,avx512vl

将 X 中每个包装的 32 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm_rol_epi64Experimentalavx512f,avx512vl

将 X 中每个包装的 64 位整数中的位向左旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm_rolv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm_rolv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向左旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm_ror_epi32Experimentalavx512f,avx512vl

将 X 中每个包装的 32 位整数中的位向右旋转 imm8 中指定的位数,并将结果存储在 dst 中。

_mm_ror_epi64Experimentalavx512f,avx512vl

将 X 中每个包装的 64 位整数中的位向右旋转 imm8 中指定的位数,然后将结果存储在 dst 中。

_mm_rorv_epi32Experimentalavx512f,avx512vl

将 a 中每个包装的 32 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm_rorv_epi64Experimentalavx512f,avx512vl

将 a 中每个包装的 64 位整数中的位向右旋转 b 的相应元素中指定的位数,然后将结果存储在 dst 中。

_mm_roundscale_pdExperimentalavx512f,avx512vl

将 x 中的包装的双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,并将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_roundscale_psExperimentalavx512f,avx512vl

将 a 中的包装的单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的小数位数,然后将结果存储在 dst 中。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_roundscale_round_sdExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,将结果存储在 dst 的下部元素中,并将上部的元素从 a 复制到 dst 的上部元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_roundscale_round_ssExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_roundscale_sdExperimentalavx512f

将 b 中的下部双精度 (64-bit) 浮点元素四舍五入到 imm8 指定的分数位数,将结果存储在 dst 的下部元素中,并将上部的元素从 a 复制到 dst 的上部元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_roundscale_ssExperimentalavx512f

将 b 中的下部单精度 (32-bit) 浮点元素四舍五入到 imm8 指定的分数位数,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。
根据 imm8[2: 0] 参数进行舍入,该参数可以是以下之一:
_MM_FROUND_TO_NEAREST_INT // 舍入到最接近的值
_MM_FROUND_TO_NEG_INF // 向下取整
_MM_FROUND_TO_POS_INF // 向上舍入
_MM_FROUND_TO_ZERO // 截断
_MM_FROUND_CUR_DIRECTION // 使用 MXCSR.RC; 请参见 _MM_SET_ROUNDING_MODE

_mm_rsqrt14_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的近似倒数平方根,将结果存储在 dst 的较低元素中,并将较高的元素从 a 复制到 dst 的较高元素。该近似值的最大相对误差小于 2^-14。

_mm_rsqrt14_ssExperimentalavx512f

计算 b 中较低单精度 (32-bit) 浮点元素的近似倒数平方根,将结果存储在 dst 的较低元素中,并将高 3 个包装的元素从 a 复制到 dst 的较高元素。该近似值的最大相对误差小于 2^-14。

_mm_scalef_pdExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,并将结果存储在 dst 中。

_mm_scalef_psExperimentalavx512f,avx512vl

使用 b 中的值缩放 a 中包装的单精度 (32-bit) 浮点元素,并将结果存储在 dst 中。

_mm_scalef_round_sdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,将结果存储在 dst 的下部元素中,然后将 a 的上部元素复制到 dst 的上部元素。

_mm_scalef_round_ssExperimentalavx512f

使用 b 中的值缩放 a 中的包装的单精度 (32-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_scalef_sdExperimentalavx512f

使用 b 中的值缩放 a 中包装的双精度 (64-bit) 浮点元素,将结果存储在 dst 的下部元素中,然后将 a 的上部元素复制到 dst 的上部元素。

_mm_scalef_ssExperimentalavx512f

使用 b 中的值缩放 a 中的包装的单精度 (32-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部的 3 个包装的元素从 a 复制到 dst 的上部元素。

_mm_shldi_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 imm8 位,并将高 16 位存储在 dst 中)。

_mm_shldi_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 imm8 位,并将高 32 位存储在 dst 中。

_mm_shldi_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 imm8 位,并将高 64 位存储在 dst 中)。

_mm_shldv_epi16Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 16 位整数,产生一个中间 32 位结果。将结果左移 c 的对应元素中指定的量,并将高 16 位存储在 dst 中。

_mm_shldv_epi32Experimentalavx512vbmi2,avx512vl

将 a 和 b 中的 32 位整数连接包装产生中间 64 位结果。将结果左移 c 的对应元素中指定的量,并将高 32 位存储在 dst 中。

_mm_shldv_epi64Experimentalavx512vbmi2,avx512vl

在 a 和 b 中连接包装的 64 位整数,产生一个中间的 128 位结果。将结果左移 c 的对应元素中指定的量,并将高 64 位存储在 dst 中。

_mm_shrdi_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 imm8 位,并将低 16 位存储在 dst 中。

_mm_shrdi_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 imm8 位,并将低 32 位存储在 dst 中。

_mm_shrdi_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 imm8 位,并将低 64 位存储在 dst 中。

_mm_shrdv_epi16Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 16 位整数连接起来,产生一个中间 32 位结果。将结果右移 c 的对应元素中指定的量,并将低 16 位存储在 dst 中。

_mm_shrdv_epi32Experimentalavx512vbmi2,avx512vl

连接包装在 b 和 a 中的 32 位整数,产生中间 64 位结果。将结果右移 c 的对应元素中指定的量,并将低 32 位存储在 dst 中。

_mm_shrdv_epi64Experimentalavx512vbmi2,avx512vl

将 b 和 a 中的包装的 64 位整数连接起来,产生一个中间的 128 位结果。将结果右移 c 的对应元素中指定的量,并将低 64 位存储在 dst 中。

_mm_sllv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数按 count 中相应元素指定的数量向左移位,同时将零移位,并将结果存储在 dst 中。

_mm_sqrt_round_sdExperimentalavx512f

计算 b 中较低的双精度 (64-bit) 浮点元素的平方根,将结果存储在 dst 的较低元素中,然后将较高的元素从 a 复制到 dst 的较高元素。

_mm_sqrt_round_ssExperimentalavx512f

计算 b 中较低的单精度 (32-bit) 浮点元素的平方根,将结果存储在 dst 的较低元素中,并将高 3 个包装的元素从 a 复制到 dst 的较高元素。

_mm_sra_epi64Experimentalavx512f,avx512vl

在移动符号位的同时按计数右移包装的 64 位整数,并将结果存储在 dst 中。

_mm_srai_epi64Experimentalavx512f,avx512vl

将包装的 64 位整数右移 imm8,同时将符号位移位,并将结果存储在 dst 中。

_mm_srav_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数右移 count 中相应元素指定的数量,同时移入符号位,然后将结果存储在 dst 中。

_mm_srav_epi64Experimentalavx512f,avx512vl

将移位的 64 位整数向右移动计数中相应元素指定的数量,同时移入符号位,并将结果存储在 dst 中。

_mm_srlv_epi16Experimentalavx512bw,avx512vl

将包装的 16 位整数向右移位 (由 count 中相应元素指定的数量),同时将零移位,并将结果存储在 dst 中。

_mm_store_epi32Experimentalavx512f,avx512vl

将 a 中的 128 位 (由 4 个包装的 32 位整数组成) 存储到内存中。mem_addr 必须在 16 字节边界上对齐,否则可能会生成一般保护异常。

_mm_store_epi64Experimentalavx512f,avx512vl

将 a 中的 128 位 (由 2 个包装的 64 位整数组成) 存储到内存中。mem_addr 必须在 16 字节边界上对齐,否则可能会生成一般保护异常。

_mm_storeu_epi8Experimentalavx512bw,avx512vl

将 a 中的 128 位 (由 16 个包装的 8 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm_storeu_epi16Experimentalavx512bw,avx512vl

将 a 中的 128 位 (由 8 个包装的 16 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm_storeu_epi32Experimentalavx512f,avx512vl

将 a 中的 128 位 (由 4 个包装的 32 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm_storeu_epi64Experimentalavx512f,avx512vl

将 a 中的 128 位 (由 2 个包装的 64 位整数组成) 存储到内存中。mem_addr 不需要在任何特定边界上对齐。

_mm_sub_round_sdExperimentalavx512f

从 a 中的较低双精度 (64-bit) 浮点元素中减去 b 中较低的双精度 (64-bit) 浮点元素,将结果存储在 dst 的较低元素中,并将较高的元素从 a 复制到 dst 的较高元素。

_mm_sub_round_ssExperimentalavx512f

从 a 中的下部单精度 (32-bit) 浮点元素中减去 b 中的下部单精度 (32-bit) 浮点元素,将结果存储在 dst 的下部元素中,并将上部 3 个包装的元素从 a 复制到上部元素 dst。

_mm_ternarylogic_epi32Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个包装的 32 位整数中的每个位,来自 a,b 和 c 的相应位用于形成到 imm8 的 3 位索引,并且将 imm8 中该位的值写入 dst 中的相应位。

_mm_ternarylogic_epi64Experimentalavx512f,avx512vl

提供执行任何三操作数二进制函数的功能的按位三元逻辑; 特定的二进制函数由 imm8 中的值指定。对于每个打包的 64 位整数中的每一位,a、b 和 c 中的相应位用于形成 imm8 中的 3 位索引,并将 imm8 中该位的值写入 dst 中的相应位。

_mm_test_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位与,生成中间 8 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm_test_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位与,生成中间的 16 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm_test_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位与,生成中间的 32 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm_test_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位与,生成中间 64 位值,如果中间值不为零,则在结果掩码 k 中设置相应的位。

_mm_testn_epi8_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 8 位整数的按位 NAND,生成中间的 8 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm_testn_epi16_maskExperimentalavx512bw,avx512vl

计算 a 和 b 中包装的 16 位整数的按位 NAND,生成中间的 16 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm_testn_epi32_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 NAND,生成中间的 32 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm_testn_epi64_maskExperimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 NAND,生成中间的 64 位值,如果中间值为零,则在结果掩码 k 中设置相应的位。

_mm_xor_epi32Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 32 位整数的按位 XOR,并将结果存储在 dst 中。

_mm_xor_epi64Experimentalavx512f,avx512vl

计算 a 和 b 中包装的 64 位整数的按位 XOR,并将结果存储在 dst 中。

_store_mask32Experimentalavx512bw

将 32 位掩码从 a 存储到内存中。

_store_mask64Experimentalavx512bw

将 64 位掩码从 a 存储到内存中。

_xabortExperimentalrtm

强制将受限制的事务内存 (RTM) 区域终止。 Intel’s documentation.

_xabort_codeExperimental

_xbegin 的状态设置为 _XABORT_EXPLICIT 标志时,检索传递给 _xabort 的参数。

_xbeginExperimentalrtm

指定受限制的事务性存储器 (RTM) 代码区域的开始,并返回一个指示状态的值。

_xendExperimentalrtm

指定受限制的事务性存储器 (RTM) 代码区域的结尾。 Intel’s documentation.

_xtestExperimentalrtm

查询处理器是在由受限事务存储器 (RTM) 还是硬件锁定扩展 (HLE) 标识的事务区域中执行。

has_cpuidExperimental

主机是否支持 cpuid 指令?

ud2Experimental

生成陷阱指令 UD2

_MM_GET_EXCEPTION_MASKsse

请参见 _mm_setcsr

_MM_GET_EXCEPTION_STATEsse

请参见 _mm_setcsr

_MM_GET_FLUSH_ZERO_MODEsse

请参见 _mm_setcsr

_MM_GET_ROUNDING_MODEsse

请参见 _mm_setcsr

_MM_SET_EXCEPTION_MASKsse

请参见 _mm_setcsr

_MM_SET_EXCEPTION_STATEsse

请参见 _mm_setcsr

_MM_SET_FLUSH_ZERO_MODEsse

请参见 _mm_setcsr

_MM_SET_ROUNDING_MODEsse

请参见 _mm_setcsr

_MM_TRANSPOSE4_PSsse

将由 4 行 __m128 组成的 4x4 矩阵转置到位。

__cpuid

请参见 __cpuid_count

__cpuid_count

返回给定 leaf (EAX) 和 sub_leaf (ECX) 的 cpuid 指令的结果。

__get_cpuid_max

返回最高支持的 leaf (EAX) 和子叶 (ECX) cpuid 值。

__rdtscp

读取处理器时间戳计数器和 IA32_TSC_AUX MSR 的当前值。

_addcarry_u32

将无符号的 32 位整数 ab 与无符号的 8 位进位 c_in (进位标志) 相加,并将无符号的 32 位结果存储在 out 中,并返回进位 (进位或溢出标志)。

_addcarryx_u32adx

将无符号的 32 位整数 ab 与无符号的 8 位进位 c_in (进位或溢出标志) 相加,并将无符号的 32 位结果存储在 out 中,并返回进位 (进位或溢出标志)。

_andn_u32bmi1

ab 的按位逻辑 AND

_bextr2_u32bmi1

control 指定的 a 的位提取到结果的最低有效位中。

_bextr_u32bmi1

a 提取范围为 [start,start + length) 的位到结果的最低有效位。

_bittest

返回由 p 寻址的存储器的位置 b 中的位。

_bittestandcomplement

返回由 p 寻址的存储器的位置 b 中的位,然后将该位取反。

_bittestandreset

返回由 p 寻址的存储器的位置 b 中的位,然后将该位重置为 0

_bittestandset

返回由 p 寻址的存储器的位置 b 中的位,然后将该位设置为 1

_blcfill_u32tbm

清除 x 的最低有效零位以下的所有位。

_blcfill_u64tbm

清除 x 的最低有效零位以下的所有位。

_blci_u32tbm

x 的所有位 (最低有效零位除外) 设置为 1。

_blci_u64tbm

x 的所有位 (最低有效零位除外) 设置为 1。

_blcic_u32tbm

设置 x 的最低有效零位并清除所有其他位。

_blcic_u64tbm

设置 x 的最低有效零位并清除所有其他位。

_blcmsk_u32tbm

设置 x 的最低有效零位,并清除该位上方的所有位。

_blcmsk_u64tbm

设置 x 的最低有效零位,并清除该位上方的所有位。

_blcs_u32tbm

设置 x 的最低有效零位。

_blcs_u64tbm

设置 x 的最低有效零位。

_blsfill_u32tbm

x 的所有位设置在最低有效位以下。

_blsfill_u64tbm

x 的所有位设置在最低有效位以下。

_blsi_u32bmi1

提取最低位隔离位。

_blsic_u32tbm

清除最低有效位并设置所有其他位。

_blsic_u64tbm

清除最低有效位并设置所有其他位。

_blsmsk_u32bmi1

将掩码提高到最低设置位。

_blsr_u32bmi1

复位 x 的最低位。

_bswap

返回整数,其字节顺序为 x

_bzhi_u32bmi2

a >= index 的高位清零。

_fxrstorfxsr

从以下位置恢复 XMMMMXMXCSRx87 FPU 寄存器 512 字节长,16 字节对齐的内存区域 mem_addr

_fxsavefxsr

x87 FPU,MMX 技术,XMMMXCSR 寄存器保存到 512 字节长,16 字节对齐的内存区域 mem_addr

_lzcnt_u32lzcnt

计算前导最高有效零位。

_mm256_abs_epi8avx2

计算 a 中包装的 8 位整数的绝对值。

_mm256_abs_epi16avx2

计算 a 中包装的 16 位整数的绝对值。

_mm256_abs_epi32avx2

计算 a 中包装的 32 位整数的绝对值。

_mm256_add_epi8avx2

ab 中添加包装的 8 位整数。

_mm256_add_epi16avx2

ab 中添加包装的 16 位整数。

_mm256_add_epi32avx2

ab 中添加包装的 32 位整数。

_mm256_add_epi64avx2

ab 中添加包装的 64 位整数。

_mm256_add_pdavx

ab 中添加包装的双精度 (64-bit) 浮点元素。

_mm256_add_psavx

ab 中添加包装的单精度 (32-bit) 浮点元素。

_mm256_adds_epi8avx2

使用饱和度在 ab 中添加包装的 8 位整数。

_mm256_adds_epi16avx2

使用饱和度在 ab 中添加包装的 16 位整数。

_mm256_adds_epu8avx2

使用饱和度在 ab 中添加包装的无符号 8 位整数。

_mm256_adds_epu16avx2

使用饱和度在 ab 中添加包装的无符号 16 位整数。

_mm256_addsub_pdavx

或者,将a中的包装双精度(64位)浮点元素与b中的包装元素进行加减。

_mm256_addsub_psavx

或者,将a中的包装的单精度(32位)浮点元素与b中的包装的元素进行加减。

_mm256_alignr_epi8avx2

ab 中的 16 字节块对连接成一个 32 字节的临时结果,将结果右移 n 字节,然后返回低 16 字节。

_mm256_and_pdavx

计算 ab 中包装的双精度 (64-bit) 浮点元素的按位与。

_mm256_and_psavx

计算 ab 中包装的单精度 (32-bit) 浮点元素的按位与。

_mm256_and_si256avx2

计算 ab 中 256 位 (代表整数数据) 的按位与。

_mm256_andnot_pdavx

计算 a 中包装的双精度 (64-bit) 浮点元素的按位 NOT,然后计算 b 的 AND。

_mm256_andnot_psavx

计算 a 中包装的单精度 (32-bit) 浮点元素的按位非,然后计算 b 的 AND。

_mm256_andnot_si256avx2

计算 a 中 256 位 (代表整数数据) 的按位非,然后计算 b 的与。

_mm256_avg_epu8avx2

ab 中的包装无符号 8 位整数的平均值。

_mm256_avg_epu16avx2

ab 中的包装无符号 16 位整数的平均值。

_mm256_blend_epi16avx2

使用控制掩码 IMM8 混合包装来自 ab 的 16 位整数。

_mm256_blend_epi32avx2

使用控制掩码 IMM8 混合来自 ab 的包装的 32 位整数。

_mm256_blend_pdavx

使用控制掩码 imm8 混合来自 ab 的包装后的双精度 (64-bit) 浮点元素。

_mm256_blend_psavx

使用控制掩码 imm8 混合来自 ab 的包装的单精度 (32-bit) 浮点元素。

_mm256_blendv_epi8avx2

使用 mask 混合来自 ab 的包装的 8 位整数。

_mm256_blendv_pdavx

使用 c 作为掩码,混合来自 ab 的包装后的双精度 (64-bit) 浮点元素。

_mm256_blendv_psavx

使用 c 作为掩码,混合来自 ab 的包装的单精度 (32-bit) 浮点元素。

_mm256_broadcast_pdavx

将内存中的 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 广播到返回的 vector 的所有元素。

_mm256_broadcast_psavx

从内存 (由 4 个包装的单精度 (32-bit) 浮点元素组成) 向广播的 vector 的所有元素广播 128 位。

_mm256_broadcast_sdavx

从内存向返回的 vector 的所有元素广播双精度 (64-bit) 浮点元素。

_mm256_broadcast_ssavx

从内存向返回的 vector 的所有元素广播单精度 (32-bit) 浮点元素。

_mm256_broadcastb_epi8avx2

a 的低位包装 8 位整数广播到 256 位返回值的所有元素。

_mm256_broadcastd_epi32avx2

a 的低位包装 32 位整数广播到 256 位返回值的所有元素。

_mm256_broadcastq_epi64avx2

a 的低位包装 64 位整数广播到 256 位返回值的所有元素。

_mm256_broadcastsd_pdavx2

将低双精度 (64-bit) 浮点元素从 a 广播到 256 位返回值的所有元素。

_mm256_broadcastsi128_si256avx2

从 a 广播 128 位整数数据到 256 位返回值中的所有 128 位通道。

_mm256_broadcastss_psavx2

将低单精度 (32-bit) 浮点元素从 a 广播到 256 位返回值的所有元素。

_mm256_broadcastw_epi16avx2

将低位包装的 16 位整数从 a 广播到 256 位返回值的所有元素

_mm256_bslli_epi128avx2

a 中的 128 位通道向左移 imm8 字节,同时向零移位。

_mm256_bsrli_epi128avx2

a 中的 128 位通道右移 imm8 字节,同时将其移位为零。

_mm256_castpd128_pd256avx

将类型 __m128d 的 vector 转换为 __m256d 类型; 结果的高 128 位未定义。

_mm256_castpd256_pd128avx

将类型为 __m256d 的 vector 强制转换为类型为 __m128d 的 vector。

_mm256_castpd_psavx

将类型为 __m256d 的 vector 强制转换为类型为 __m256 的 vector。

_mm256_castpd_si256avx

将类型为 __m256d 的 vector 强制转换为类型为 __m256i 的 vector。

_mm256_castps128_ps256avx

将类型 __m128 的 vector 转换为 __m256 类型; 结果的高 128 位未定义。

_mm256_castps256_ps128avx

将类型为 __m256 的 vector 强制转换为类型为 __m128 的 vector。

_mm256_castps_pdavx

将类型为 __m256 的 vector 强制转换为类型为 __m256d 的 vector。

_mm256_castps_si256avx

将类型为 __m256 的 vector 强制转换为类型为 __m256i 的 vector。

_mm256_castsi128_si256avx

将类型为 __m128i 的 vector 强制转换为类型 __m256i; 结果的高 128 位未定义。

_mm256_castsi256_pdavx

将类型为 __m256i 的 vector 强制转换为类型为 __m256d 的 vector。

_mm256_castsi256_psavx

将类型为 __m256i 的 vector 强制转换为类型为 __m256 的 vector。

_mm256_castsi256_si128avx

将类型为 __m256i 的 vector 强制转换为类型为 __m128i 的 vector。

_mm256_ceil_pdavx

a 中的包装的双精度 (64-bit) 浮点元素四舍五入为正无穷大。

_mm256_ceil_psavx

a 中的包装的单精度 (32-bit) 浮点元素四舍五入为正无穷大。

_mm256_cmp_pdavx

根据 IMM5 指定的比较操作数比较 ab 中包装的双精度 (64-bit) 浮点元素。

_mm256_cmp_psavx

根据 IMM5 指定的比较操作数比较 ab 中包装的单精度 (32-bit) 浮点元素。

_mm256_cmpeq_epi8avx2

比较 ab 中的包装 8 位整数是否相等。

_mm256_cmpeq_epi16avx2

比较 ab 中的包装的 16 位整数是否相等。

_mm256_cmpeq_epi32avx2

比较 ab 中的包装 32 位整数是否相等。

_mm256_cmpeq_epi64avx2

比较 ab 中的包装 64 位整数是否相等。

_mm256_cmpgt_epi8avx2

比较 ab 中的包装的 8 位整数是否大于。

_mm256_cmpgt_epi16avx2

比较 ab 中的包装的 16 位整数是否大于。

_mm256_cmpgt_epi32avx2

比较 ab 中的包装的 32 位整数是否大于。

_mm256_cmpgt_epi64avx2

比较 ab 中的包装 64 位整数是否大于。

_mm256_cvtepi8_epi16avx2

将 8 位整数符号扩展为 16 位整数。

_mm256_cvtepi8_epi32avx2

将 8 位整数符号扩展为 32 位整数。

_mm256_cvtepi8_epi64avx2

将 8 位整数符号扩展为 64 位整数。

_mm256_cvtepi16_epi32avx2

将 16 位整数符号扩展为 32 位整数。

_mm256_cvtepi16_epi64avx2

将 16 位整数符号扩展为 64 位整数。

_mm256_cvtepi32_epi64avx2

将 32 位整数符号扩展为 64 位整数。

_mm256_cvtepi32_pdavx

a 中的包装的 32 位整数转换为包装的双精度 (64-bit) 浮点元素。

_mm256_cvtepi32_psavx

a 中的包装的 32 位整数转换为包装的单精度 (32-bit) 浮点元素。

_mm256_cvtepu8_epi16avx2

a 中的无符号 8 位整数零扩展为 16 位整数。

_mm256_cvtepu8_epi32avx2

a 中的低八位无符号 8 位整数零扩展为 32 位整数。 a 的前八个元素未使用。

_mm256_cvtepu8_epi64avx2

a 中的低四位无符号 8 位整数零扩展到 64 位整数。 a 的前十二个元素未使用。

_mm256_cvtepu16_epi32avx2

零将 a 中的包装的无符号 16 位整数扩展为包装的 32 位整数,并将结果存储在 dst 中。

_mm256_cvtepu16_epi64avx2

a 中的低四位无符号 16 位整数零扩展到 64 位整数。 a 的前四个元素未使用。

_mm256_cvtepu32_epi64avx2

a 中的无符号 32 位整数零扩展为 64 位整数。

_mm256_cvtpd_epi32avx

a 中的包装的双精度 (64-bit) 浮点元素转换为包装的 32 位整数。

_mm256_cvtpd_psavx

a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素。

_mm256_cvtps_epi32avx

a 中的包装的单精度 (32-bit) 浮点元素转换为包装的 32 位整数。

_mm256_cvtps_pdavx

a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素。

_mm256_cvtsd_f64avx2

返回 [4 x double] 的输入 vector 的第一个元素。

_mm256_cvtsi256_si32avx2

返回 [8 x i32] 的输入 vector 的第一个元素。

_mm256_cvtss_f32avx

返回 [8 x float] 的输入 vector 的第一个元素。

_mm256_cvttpd_epi32avx

a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数。

_mm256_cvttps_epi32avx

a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数。

_mm256_div_pdavx

计算 a 中的 4 个包装的 64 位浮点元素中的每一个除以 b 中相应的封装元素的除法。

_mm256_div_psavx

计算 a 中的 8 个包装的 32 位浮点元素中的每一个除以 b 中相应的封装元素的除法。

_mm256_dp_psavx

使用 imm8 的高 4 位有条件地将 ab 中的包装的单精度 (32-bit) 浮点元素相乘,对四个乘积求和,并使用 imm8 的低 4 位有条件地返回总和。

_mm256_extract_epi8avx2

a 中提取一个 8 位整数,用 INDEX 选择。 返回包含零扩展整数数据的 32 位整数。 See LLVM commit D20468.

_mm256_extract_epi16avx2

a 中提取一个 16 位整数,用 INDEX 选择。 返回包含零扩展整数数据的 32 位整数。 See LLVM commit D20468.

_mm256_extract_epi32avx2

a 中提取一个 32 位整数,用 INDEX 选择。

_mm256_extractf128_pdavx

a 提取 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成),并使用 imm8 进行选择。

_mm256_extractf128_psavx

a 提取 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并用 imm8 选择。

_mm256_extractf128_si256avx

a 中提取 128 位 (由整数数据组成),并用 imm8 选择。

_mm256_extracti128_si256avx2

IMM1 选择的 a 中提取 128 位 (整数数据)。

_mm256_floor_pdavx

a 中的包装的双精度 (64-bit) 浮点元素四舍五入为负无穷大。

_mm256_floor_psavx

a 中的包装的单精度 (32-bit) 浮点元素四舍五入为负无穷大。

_mm256_fmadd_pdfma

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并将中间结果与 c 中的包装的元素相加。

_mm256_fmadd_psfma

ab 中的包装单精度 (32-bit) 浮点元素相乘,并将中间结果添加到 c 中的包装元素中。

_mm256_fmaddsub_pdfma

ab 中的包装的双精度 (64-bit) 浮点元素相乘,或者在 c to/from 中将包装的元素相加或减去中间结果。

_mm256_fmaddsub_psfma

ab 中包装的单精度 (32-bit) 浮点元素相乘,或者将 c 中包装的元素加/减到中间结果中。

_mm256_fmsub_pdfma

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并从中间结果中减去 c 中的包装的双精度元素。

_mm256_fmsub_psfma

ab 中的包装的单精度 (32-bit) 浮点元素相乘,并从中间结果中减去 c 中的包装元素。

_mm256_fmsubadd_pdfma

ab 中的包装的双精度 (64-bit) 浮点元素相乘,也可以从中间结果中减去或加上 c 中的包装元素。

_mm256_fmsubadd_psfma

ab 中的包装单精度 (32-bit) 浮点元素相乘,或者将 c 中的包装元素从中间结果中减去或加上。

_mm256_fnmadd_pdfma

ab 中的包装双精度 (64-bit) 浮点元素相乘,然后将取反的中间结果添加到 c 中的包装元素中。

_mm256_fnmadd_psfma

ab 中的包装单精度 (32-bit) 浮点元素相乘,并将取反的中间结果添加到 c 中的包装元素中。

_mm256_fnmsub_pdfma

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并从取反的中间结果中减去 c 中的包装的元素。

_mm256_fnmsub_psfma

ab 中的包装的单精度 (32-bit) 浮点元素相乘,并从取反的中间结果中减去 c 中的包装的元素。

_mm256_hadd_epi16avx2

ab 中水平添加相邻的 16 位整数对。

_mm256_hadd_epi32avx2

ab 中水平添加相邻的 32 位整数对。

_mm256_hadd_pdavx

在 4 个 64 位浮点 ab 的两个包装的 vectors 中水平相加相邻对。 结果,来自 a 的元素之和在偶数位置返回,而来自 b 的元素之和在奇数位置返回。

_mm256_hadd_psavx

在 8 个 32 位浮点 ab 的两个包装的 vectors 中水平相加相邻对。 结果,来自 a 的元素之和返回到索引 0、1、4、5 的位置; 而 b 中的元素总和是位置

_mm256_hadds_epi16avx2

使用饱和度在 ab 中水平添加相邻的 16 位整数对。

_mm256_hsub_epi16avx2

水平减去 ab 中相邻的 16 位整数对。

_mm256_hsub_epi32avx2

水平减去 ab 中相邻的 32 位整数对。

_mm256_hsub_pdavx

在 4 个 64 位浮点 ab 的两个包装的 vectors 中对相邻对进行水平减法。 结果,来自 a 的元素之和在偶数位置返回,而来自 b 的元素之和在奇数位置返回。

_mm256_hsub_psavx

将 8 个 32 位浮点 ab 的两个包装的 vectors 中的相邻对进行水平减法。 结果,来自 a 的元素之和返回到索引 0、1、4、5 的位置; 而 b 中的元素总和是位置

_mm256_hsubs_epi16avx2

使用饱和度水平减去 ab 中相邻的 16 位整数对。

_mm256_i32gather_epi32avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm256_i32gather_epi64avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应为 1、2、4 和 8。

_mm256_i32gather_pdavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm256_i32gather_psavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm256_i64gather_epi32avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm256_i64gather_epi64avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm256_i64gather_pdavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm256_i64gather_psavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm256_insert_epi8avx

复制 a 到结果,并在 index 指定的位置将 8 位整数 i 插入到结果中。

_mm256_insert_epi16avx

复制 a 到结果,并在 index 指定的位置将 16 位整数 i 插入到 result 中。

_mm256_insert_epi32avx

复制 a 到结果,然后在 index 指定的位置将 32 位整数 i 插入到结果中。

_mm256_insertf128_pdavx

a 复制到结果中,然后将 b 中的 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 插入 imm8 指定的位置的结果中。

_mm256_insertf128_psavx

a 复制到结果中,然后将 b 中的 128 位 (由 4 个包装的单精度 (32-bit) 浮点元素组成) 插入 imm8 指定的位置的结果中。

_mm256_insertf128_si256avx

复制 a 到结果,然后将 b 中的 128 位插入到 imm8 指定的位置的结果中。

_mm256_inserti128_si256avx2

a 复制到 dst,然后在 IMM1 指定的位置插入来自 b 的 128 位 (整数数据)。

_mm256_lddqu_si256avx

从未对齐的内存中将 256 位整数数据加载到结果中。 当数据越过缓存行边界时,此内联函数可能比 _mm256_loadu_si256 更好。

_mm256_load_pdavx

从内存中将 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 加载到结果中。

_mm256_load_psavx

从内存中将 256 位 (由 8 个包装的单精度 (32-bit) 浮点元素组成) 加载到结果中。

_mm256_load_si256avx

从内存中将 256 位整数数据加载到结果中。 mem_addr 必须在 32 字节边界上对齐,否则可能会产生一般保护异常。

_mm256_loadu2_m128avx,sse

从内存中加载两个 128 位值 (由 4 个包装的单精度 (32-bit) 浮点元素组成),并将它们组合为 256 位值。

_mm256_loadu2_m128davx,sse2

从内存中加载两个 128 位值 (由 2 个包装的双精度 (64-bit) 浮点元素组成),并将它们组合为 256 位值。

_mm256_loadu2_m128iavx,sse2

从内存中加载两个 128 位值 (由整数数据组成),并将它们组合为 256 位值。 hiaddr loaddrloaddr 不需要在任何特定边界上对齐。

_mm256_loadu_pdavx

从内存中将 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 加载到结果中。

_mm256_loadu_psavx

从内存中将 256 位 (由 8 个包装的单精度 (32-bit) 浮点元素组成) 加载到结果中。

_mm256_loadu_si256avx

从内存中将 256 位整数数据加载到结果中。 mem_addr 不需要在任何特定边界上对齐。

_mm256_madd_epi16avx2

ab 中包装的带符号的 16 位整数相乘,产生中间的带符号的 32 位整数。 水平添加相邻的中间 32 位整数对。

_mm256_maddubs_epi16avx2

a 中的每个无符号 8 位整数与 b 中的相应带符号 8 位整数垂直相乘,生成中间带符号的 16 位整数。 水平相加相邻的中间带符号的 16 位整数对

_mm256_mask_i32gather_epi32avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm256_mask_i32gather_epi64avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm256_mask_i32gather_pdavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm256_mask_i32gather_psavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm256_mask_i64gather_epi32avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm256_mask_i64gather_epi64avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm256_mask_i64gather_pdavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm256_mask_i64gather_psavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm256_maskload_epi32avx2

使用 maskmem_addr 指向的内存中加载包装的 32 位整数 (当未在相应元素中设置最高位时,元素清零)。

_mm256_maskload_epi64avx2

使用 maskmem_addr 指向的内存中加载包装的 64 位整数 (当未在相应元素中设置最高位时,元素清零)。

_mm256_maskload_pdavx

使用 mask 将包装的双精度 (64-bit) 浮点元素从内存加载到结果中 (当未设置相应元素的高位时,元素清零)。

_mm256_maskload_psavx

使用 mask 将包装的单精度 (32-bit) 浮点元素从内存加载到结果中 (当未设置相应元素的高位时,元素清零)。

_mm256_maskstore_epi32avx2

使用 maska 中的包装后的 32 位整数存储到 mem_addr 指向的内存中 (当在相应元素中未设置最高位时,不存储元素)。

_mm256_maskstore_epi64avx2

使用 maska 中的包装 64 位整数存储到 mem_addr 指向的内存中 (当未在相应元素中设置最高位时,不存储元素)。

_mm256_maskstore_pdavx

使用 mask 将包装的双精度 (64-bit) 浮点元素从 a 存储到内存中。

_mm256_maskstore_psavx

使用 mask 将包装的单精度 (32-bit) 浮点元素从 a 存储到内存中。

_mm256_max_epi8avx2

比较 ab 中的包装的 8 位整数,并返回包装的最大值。

_mm256_max_epi16avx2

比较 ab 中的包装的 16 位整数,并返回包装的最大值。

_mm256_max_epi32avx2

比较 ab 中的包装的 32 位整数,并返回包装的最大值。

_mm256_max_epu8avx2

比较 ab 中包装的无符号 8 位整数,并返回包装的最大值。

_mm256_max_epu16avx2

比较 ab 中包装的无符号 16 位整数,并返回包装的最大值。

_mm256_max_epu32avx2

比较 ab 中的包装的无符号 32 位整数,并返回包装的最大值。

_mm256_max_pdavx

比较 ab 中的包装的双精度 (64-bit) 浮点元素,并返回包装的最大值

_mm256_max_psavx

比较 ab 中的包装的单精度 (32-bit) 浮点元素,并返回包装的最大值

_mm256_min_epi8avx2

比较 ab 中的包装的 8 位整数,并返回包装的最小值。

_mm256_min_epi16avx2

比较 ab 中包装的 16 位整数,并返回包装的最小值。

_mm256_min_epi32avx2

比较 ab 中的包装的 32 位整数,并返回包装的最小值。

_mm256_min_epu8avx2

比较 ab 中包装的无符号 8 位整数,并返回包装的最小值。

_mm256_min_epu16avx2

比较 ab 中包装的无符号 16 位整数,并返回包装的最小值。

_mm256_min_epu32avx2

比较 ab 中包装的无符号 32 位整数,并返回包装的最小值。

_mm256_min_pdavx

比较 ab 中的包装的双精度 (64-bit) 浮点元素,并返回包装的最小值

_mm256_min_psavx

比较 ab 中的包装的单精度 (32-bit) 浮点元素,并返回包装的最小值

_mm256_movedup_pdavx

a 复制偶数索引的双精度 (64-bit) 浮点元素,并返回结果。

_mm256_movehdup_psavx

a 复制奇数索引的单精度 (32-bit) 浮点元素,并返回结果。

_mm256_moveldup_psavx

a 复制偶数索引的单精度 (32-bit) 浮点元素,并返回结果。

_mm256_movemask_epi8avx2

a 中每个 8 位元素的最高有效位创建掩码,并返回结果。

_mm256_movemask_pdavx

根据 a 中相应的包装的双精度 (64-bit) 浮点元素的最高有效位设置返回掩码的每一位。

_mm256_movemask_psavx

基于 a 中相应的包装单精度 (32-bit) 浮点元素的最高有效位来设置返回掩码的每一位。

_mm256_mpsadbw_epu8avx2

计算无符号四元组的绝对差之和 (SADs) a 中的 8 位整数与 b 中的 8 位整数相比较,并将 16 位结果存储在 dst 中。 使用来自 b 的一个四元组和来自 a 的八个四元组,对每个 128 位通道执行八个 SAD。 从 b 中指定的偏移量开始,从 b 中选择一个四元组。 从 a 中选择的有序 8 位整数开始的 8 个四元组,起始于 imm8 中指定的偏移量。

_mm256_mul_epi32avx2

ab 中每个包装的 64 位元素的低位 32 位整数相乘

_mm256_mul_epu32avx2

ab 中每个包装的 64 位元素的低位无符号 32 位整数相乘

_mm256_mul_pdavx

ab 中的包装的双精度 (64-bit) 浮点元素相乘。

_mm256_mul_psavx

ab 中的包装的单精度 (32-bit) 浮点元素相乘。

_mm256_mulhi_epi16avx2

ab 中的包装的 16 位整数相乘,产生 32 位中间整数,并返回中间整数的高 16 位。

_mm256_mulhi_epu16avx2

ab 中包装的无符号 16 位整数相乘,生成中间的 32 位整数,并返回中间整数的高 16 位。

_mm256_mulhrs_epi16avx2

ab 中的包装的 16 位整数相乘,生成中间带符号的 32 位整数。 将每个中间整数截断为 18 个最高有效位,再加 1 取整,然后返回 [16:1] 位。

_mm256_mullo_epi16avx2

ab 中的包装的 16 位整数相乘,产生 32 位中间整数,并返回中间整数的低 16 位

_mm256_mullo_epi32avx2

ab 中的包装的 32 位整数相乘,生成中间 64 位整数,并返回中间整数的低 32 位

_mm256_or_pdavx

计算 ab 中按位或包装的双精度 (64-bit) 浮点元素。

_mm256_or_psavx

计算 ab 中按位或包装的单精度 (32-bit) 浮点元素。

_mm256_or_si256avx2

计算 ab 中 256 位 (表示整数数据) 的按位或

_mm256_packs_epi16avx2

使用带符号的饱和度将包装的 16 位整数从 ab 转换为包装的 8 位整数

_mm256_packs_epi32avx2

使用带符号的饱和度将包装的 32 位整数从 ab 转换为包装的 16 位整数

_mm256_packus_epi16avx2

使用无符号饱和度将包装的 16 位整数从 ab 转换为包装的 8 位整数

_mm256_packus_epi32avx2

使用无符号饱和度将包装的 32 位整数从 ab 转换为包装的 16 位整数

_mm256_permute2f128_pdavx

混洗 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成),由 imm8ab 中选择。

_mm256_permute2f128_psavx

混洗 256 位 (由 8 个包装的单精度 (32-bit) 浮点元素组成),由 imm8ab 中选择。

_mm256_permute2f128_si256avx

重排 imm8ab 选择的 128 位 (由整数数据组成)。

_mm256_permute2x128_si256avx2

打乱由 imm8ab 选择的 128 位整数数据。

_mm256_permute4x64_epi64avx2

使用控制掩码 imm8a 置换 64 位整数。

_mm256_permute4x64_pdavx2

使用 imm8 中的控件对 a 中的 64 位浮点元素进行打乱。

_mm256_permute_pdavx

使用 imm8 中的控件在 128 位通道内对 a 中的双精度 (64-bit) 浮点元素进行混洗。

_mm256_permute_psavx

使用 imm8 中的控件在 128 位通道内对 a 中的单精度 (32-bit) 浮点元素进行混洗。

_mm256_permutevar8x32_epi32avx2

根据 b 的内容,对 a 的 32 位整数进行包装的排列。

_mm256_permutevar8x32_psavx2

使用 idx 中相应的 32 位整数索引跨通道对 a 中的八个 32 位浮点元素进行打乱。

_mm256_permutevar_pdavx

使用 b 中的控件在 256 位通道内对 a 中的双精度 (64-bit) 浮点元素进行混洗。

_mm256_permutevar_psavx

使用 b 中的控件在 128 位通道内对 a 中的单精度 (32-bit) 浮点元素进行混洗。

_mm256_rcp_psavx

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数,并返回结果。 该近似值的最大相对误差小于 1.5*2^-12。

_mm256_round_pdavx

根据 ROUNDING 标志对 a 中的双精度 (64-bit) 浮点包装的 (64-bit) 浮点元素进行舍入。 ROUNDING 的值可能如下:

_mm256_round_psavx

根据标志 ROUNDINGa 中的单精度 (32-bit) 浮点包装元素进行舍入。 ROUNDING 的值可能如下:

_mm256_rsqrt_psavx

计算 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根,并返回结果。

_mm256_sad_epu8avx2

计算 ab 中包装的无符号 8 位整数的绝对差,然后将每个连续的 8 个差水平求和,产生四个无符号的 16 位整数,并将这些无符号的 16 位整数包装在 64 位返回值的低 16 位中

_mm256_set1_epi8avx

向返回的 vector 的所有元素广播 8 位整数 a。 此内联函数可能会生成 vpbroadcastb

_mm256_set1_epi16avx

向返回的 vector 的所有所有元素广播 16 位整数 a。 此内联函数可能会生成 vpbroadcastw

_mm256_set1_epi32avx

向返回的 vector 的所有元素广播 32 位整数 a。 此内联函数可能会生成 vpbroadcastd

_mm256_set1_epi64xavx

向返回的 vector 的所有元素广播 64 位整数 a。 此内联函数可能会生成 vpbroadcastq

_mm256_set1_pdavx

向返回的 vector 的所有元素广播双精度 (64-bit) 浮点值 a

_mm256_set1_psavx

向返回的 vector 的所有元素广播单精度 (32-bit) 浮点值 a

_mm256_set_epi8avx

在返回的 vector 中设置包装的 8 位整数,并以相反的顺序提供所提供的值。

_mm256_set_epi16avx

使用提供的值在返回的 vector 中设置包装的 16 位整数。

_mm256_set_epi32avx

使用提供的值在返回的 vector 中设置包装的 32 位整数。

_mm256_set_epi64xavx

使用提供的值在返回的 vector 中设置包装的 64 位整数。

_mm256_set_m128avx

设置包装的 __m256 返回的 vector 与提供的值。

_mm256_set_m128davx

设置包装的 __m256d 返回的 vector 具有提供的值。

_mm256_set_m128iavx

包装的 __m256i 集合使用提供的值返回 vector。

_mm256_set_pdavx

使用提供的值在返回的 vector 中设置包装的双精度 (64-bit) 浮点元素。

_mm256_set_psavx

使用提供的值在返回的 vector 中设置包装的单精度 (32-bit) 浮点元素。

_mm256_setr_epi8avx

在返回的 vector 中设置包装的 8 位整数,并以相反的顺序提供所提供的值。

_mm256_setr_epi16avx

在返回的 vector 中设置包装的 16 位整数,其提供的值的顺序相反。

_mm256_setr_epi32avx

在返回的 vector 中设置包装的 32 位整数,并以相反的顺序提供所提供的值。

_mm256_setr_epi64xavx

在返回的 vector 中设置包装的 64 位整数,其提供的值的顺序相反。

_mm256_setr_m128avx

设置包装的 __m256 返回的 vector 与提供的值。

_mm256_setr_m128davx

设置包装的 __m256d 返回的 vector 具有提供的值。

_mm256_setr_m128iavx

包装的 __m256i 集合使用提供的值返回 vector。

_mm256_setr_pdavx

在返回的 vector 中使用反向提供的值设置包装的双精度 (64-bit) 浮点元素。

_mm256_setr_psavx

在返回的 vector 中使用反向提供的值设置包装的单精度 (32-bit) 浮点元素。

_mm256_setzero_pdavx

返回 __m256d 类型的 vector,所有元素均设置为零。

_mm256_setzero_psavx

返回 __m256 类型的 vector,所有元素都设置为零。

_mm256_setzero_si256avx

返回类型为 __m256i 的 vector,所有元素均设置为零。

_mm256_shuffle_epi8avx2

根据 b 的内容,打乱 a 中的字节。

_mm256_shuffle_epi32avx2

使用 imm8 中的控件,在 a 的 128 位通道中打乱 32 位整数。

_mm256_shuffle_pdavx

使用 imm8 中的控件对 128 位通道中的双精度 (64-bit) 浮点元素进行混洗。

_mm256_shuffle_psavx

a 中的单精度 (32-bit) 浮点元素改组为 使用 imm8 中的控件的 128 位通道。

_mm256_shufflehi_epi16avx2

使用 imm8 中的控件,在 a 的 128 位通道的高 64 位中打乱 16 位整数。 a 的 128 位通道的低 64 位被复制到输出中。

_mm256_shufflelo_epi16avx2

使用 imm8 中的控件在 a 的 128 位通道的低 64 位中打乱 16 位整数。 a 的 128 位通道的高 64 位被复制到输出中。

_mm256_sign_epi8avx2

当相应的带符号时,将 a 中的包装的 8 位整数取反 b 中的 8 位整数为负,并返回结果。 当 b 中的相应元素为零时,结果归零。

_mm256_sign_epi16avx2

当相应的带符号时,将 a 中的 16 位整数包装为无效 b 中的 16 位整数为负,并返回结果。 当 b 中的相应元素为零时,结果归零。

_mm256_sign_epi32avx2

当相应的带符号时,将 a 中的包装的 32 位整数取反 b 中的 32 位整数为负,并返回结果。 当 b 中的相应元素为零时,结果归零。

_mm256_sll_epi16avx2

count 左移的 a 中的包装的 16 位整数移位,同时移零,并返回结果

_mm256_sll_epi32avx2

count 左移的 a 中的包装的 32 位整数移位,同时移零,并返回结果

_mm256_sll_epi64avx2

count 左移的 a 中的包装的 64 位整数移位,同时移零,并返回结果

_mm256_slli_epi16avx2

a 中包装的 16 位整数在 IMM8 左移同时移零,返回结果;

_mm256_slli_epi32avx2

a 中的包装的 32 位整数在 IMM8 左移同时移零,返回结果;

_mm256_slli_epi64avx2

a 中的包装的 64 位整数在 IMM8 左移同时移零,返回结果;

_mm256_slli_si256avx2

a 中的 128 位通道向左移 imm8 字节,同时向零移位。

_mm256_sllv_epi32avx2

a 中的包装的 32 位整数左移 count 中相应元素所指定的数量,同时将零移位,并返回结果。

_mm256_sllv_epi64avx2

a 中的包装的 64 位整数左移 count 中相应元素所指定的数量,同时将零移位,并返回结果。

_mm256_sqrt_pdavx

返回 a 中包装的双精度 (64-bit) 浮点元素的平方根。

_mm256_sqrt_psavx

返回 a 中包装的单精度 (32-bit) 浮点元素的平方根。

_mm256_sra_epi16avx2

将符号位移入时,将 a 中的包装的 16 位整数右移 count

_mm256_sra_epi32avx2

将符号位移位时,将 a 中的包装的 32 位整数右移 count

_mm256_srai_epi16avx2

a 中包装的 16 位整数右移 IMM8,同时移入符号位。

_mm256_srai_epi32avx2

a 中包装的 32 位整数右移 IMM8,同时移入符号位。

_mm256_srav_epi32avx2

a 中的32位整数向右移动,移动量由 count 中的相应元素指定,同时移入符号位。

_mm256_srl_epi16avx2

a 中的包装的 16 位整数右移 count,同时将零移位。

_mm256_srl_epi32avx2

a 中的包装的 32 位整数右移 count,同时将零移位。

_mm256_srl_epi64avx2

a 中的包装的 64 位整数右移 count,同时将零移位。

_mm256_srli_epi16avx2

a 中包装的 16 位整数右移 IMM8,同时将其移入零

_mm256_srli_epi32avx2

a 中包装的 32 位整数右移 IMM8,同时将其移入零

_mm256_srli_epi64avx2

a 中包装的 64 位整数右移 IMM8,同时将其移入零

_mm256_srli_si256avx2

a 中的 128 位通道右移 imm8 字节,同时将其移位为零。

_mm256_srlv_epi32avx2

a 中的包装的 32 位整数右移 count 中相应元素所指定的数量,同时将零移位,

_mm256_srlv_epi64avx2

a 中的包装的 64 位整数右移 count 中相应元素所指定的数量,同时将零移位,

_mm256_store_pdavx

将来自 a 的 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。

_mm256_store_psavx

将来自 a 的 256 位 (由 8 个包装的单精度 (32-bit) 浮点元素组成) 存储到内存中。

_mm256_store_si256avx

将来自 a 的 256 位整数数据存储到内存中。 mem_addr 必须在 32 字节边界上对齐,否则可能会产生一般保护异常。

_mm256_storeu2_m128avx,sse

将来自 a 的高和低 128 位半部分 (每个半部分由 4 个包装的单精度 (32-bit) 浮点元素组成) 存储到内存中两个不同的 128 位位置。

_mm256_storeu2_m128davx,sse2

将来自 a 的高和低 128 位半部分 (每个半部分由 2 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中两个不同的 128 位位置。

_mm256_storeu2_m128iavx,sse2

将来自 a 的高 128 位和低 128 位 (分别由整数数据组成) 存储到内存中两个不同的 128 位位置。

_mm256_storeu_pdavx

将来自 a 的 256 位 (由 4 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。

_mm256_storeu_psavx

将来自 a 的 256 位 (由 8 个包装的单精度 (32-bit) 浮点元素组成) 存储到内存中。

_mm256_storeu_si256avx

将来自 a 的 256 位整数数据存储到内存中。 mem_addr 不需要在任何特定边界上对齐。

_mm256_stream_pdavx

将双精度值从 [4 x double] 的 256 位 vector 移动到 32 字节对齐的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)。

_mm256_stream_psavx

将单精度浮点值从 [8 x float] 的 256 位 vector 移到 32 字节对齐的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)。

_mm256_stream_si256avx

将整数数据从 256 位整数 vector 移动到 32 字节对齐的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)

_mm256_sub_epi8avx2

a 中的包装的 8 位整数中减去 b 中的包装的 8 位整数

_mm256_sub_epi16avx2

a 中的包装的 16 位整数减去 b 中的包装的 16 位整数

_mm256_sub_epi32avx2

a 中的包装的 32 位整数减去 b 中的包装的 32 位整数

_mm256_sub_epi64avx2

a 中的包装的 64 位整数减去 b 中的包装的 64 位整数

_mm256_sub_pdavx

a 中的包装的元素中减去 b 中的包装后的双精度 (64-bit) 浮点元素。

_mm256_sub_psavx

a 中的包装元素中减去 b 中的包装的单精度 (32-bit) 浮点元素。

_mm256_subs_epi8avx2

使用饱和度从 a 的包装的 8 位整数减去 b 的包装的 8 位整数。

_mm256_subs_epi16avx2

使用饱和度从 a 的包装的 16 位整数减去 b 的包装的 16 位整数。

_mm256_subs_epu8avx2

使用饱和度从 a 的包装的 8 位整数减去 b 的包装的无符号 8 位整数。

_mm256_subs_epu16avx2

使用饱和度从 a 的包装的 16 位整数减去 b 的包装的无符号 16 位整数。

_mm256_testc_pdavx

计算 ab 中 256 位 (表示双精度 (64-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 CF 值。

_mm256_testc_psavx

计算 ab 中 256 位 (表示单精度 (32-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 CF 值。

_mm256_testc_si256avx

计算 ab 中 256 位 (表示整数数据) 的按位与,如果结果为零,则将 ZF 设置为 1,否则将 ZF 设置为 0。

_mm256_testnzc_pdavx

计算 ab 中 256 位 (表示双精度 (64-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 如果 ZFCF 的值均为零,则返回 1,否则返回 0。

_mm256_testnzc_psavx

计算 ab 中 256 位 (表示单精度 (32-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 如果 ZFCF 的值均为零,则返回 1,否则返回 0。

_mm256_testnzc_si256avx

计算 ab 中 256 位 (表示整数数据) 的按位与,如果结果为零,则将 ZF 设置为 1,否则将 ZF 设置为 0。

_mm256_testz_pdavx

计算 ab 中 256 位 (表示双精度 (64-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 ZF 值。

_mm256_testz_psavx

计算 ab 中 256 位 (表示单精度 (32-bit) 浮点元素) 的按位与,生成中间 256 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 ZF 值。

_mm256_testz_si256avx

计算 ab 中 256 位 (表示整数数据) 的按位与,如果结果为零,则将 ZF 设置为 1,否则将 ZF 设置为 0。

_mm256_undefined_pdavx

返回带有未定义元素的 __m256d 类型的 vector。

_mm256_undefined_psavx

返回带有未定义元素的 __m256 类型的 vector。

_mm256_undefined_si256avx

返回带有未定义元素的 __m256i 类型的 vector。

_mm256_unpackhi_epi8avx2

从每个高位的一半拆包并交织 8 位整数 ab 中的 128 位通道。

_mm256_unpackhi_epi16avx2

从每个高位的一半拆包并交织 16 位整数 ab 的 128 位通道

_mm256_unpackhi_epi32avx2

从每个高位的一半拆包并交织 32 位整数 ab 的 128 位通道

_mm256_unpackhi_epi64avx2

从每个高位的一半拆包并交织 64 位整数 ab 的 128 位通道

_mm256_unpackhi_pdavx

ab 中每个 128 位通道的上半部分解包并交织双精度 (64-bit) 浮点元素。

_mm256_unpackhi_psavx

ab 中每个 128 位通道的高半部分解包并交织单精度 (32-bit) 浮点元素。

_mm256_unpacklo_epi8avx2

从每个低位拆包并交织 8 位整数 ab 的 128 位通道

_mm256_unpacklo_epi16avx2

从每个低位拆包并交织 16 位整数 ab 的 128 位通道

_mm256_unpacklo_epi32avx2

从每个低位拆包并交织 32 位整数 ab 的 128 位通道

_mm256_unpacklo_epi64avx2

从每个字节的下半部分拆包并交织 64 位整数 ab 的 128 位通道

_mm256_unpacklo_pdavx

ab 中每个 128 位通道的下半部分解包并交织双精度 (64-bit) 浮点元素。

_mm256_unpacklo_psavx

ab 中每个 128 位通道的下半部分解包并交织单精度 (32-bit) 浮点元素。

_mm256_xor_pdavx

计算 ab 中包装的双精度 (64-bit) 浮点元素的按位 XOR。

_mm256_xor_psavx

计算 ab 中包装的单精度 (32-bit) 浮点元素的按位 XOR。

_mm256_xor_si256avx2

计算 ab 中 256 位 (表示整数数据) 的按位 XOR

_mm256_zeroallavx

将所有 XMM 或 YMM 寄存器的内容清零。

_mm256_zeroupperavx

将所有 YMM 寄存器的高 128 位清零; 寄存器的低 128 位保持不变。

_mm256_zextpd128_pd256avx,sse2

从 a 创建一个 [4 x double] 的 256 位浮点 vector [2 x double] 的 128 位浮点 vector。低 128 位包含源 vector 的值。 高 128 位设置为零。

_mm256_zextps128_ps256avx,sse

从 a 创建一个 [8 x float] 的 256 位浮点 vector [4 x float] 的 128 位浮点 vector。低 128 位包含源 vector 的值。 高 128 位设置为零。

_mm256_zextsi128_si256avx,sse2

从 128 位整数 vector 创建一个 256 位整数 vector。 低 128 位包含源 vector 的值。上层 128 位设置为零。

_mm512_storeu_psavx512f

将来自 a 的 512 位 (由 16 个包装的单精度 (32-bit) 浮点元素组成) 存储到内存中。

_mm_abs_epi8ssse3

计算 a 中包装的 8 位带符号整数的绝对值,并返回无符号结果。

_mm_abs_epi16ssse3

计算 a 中每个包装的 16 位有符号整数的绝对值,并返回 16 位无符号整数

_mm_abs_epi32ssse3

计算 a 中每个包装的 32 位有符号整数的绝对值,并返回 32 位无符号整数

_mm_add_epi8sse2

ab 中添加包装的 8 位整数。

_mm_add_epi16sse2

ab 中添加包装的 16 位整数。

_mm_add_epi32sse2

ab 中添加包装的 32 位整数。

_mm_add_epi64sse2

ab 中添加包装的 64 位整数。

_mm_add_pdsse2

ab 中添加包装的双精度 (64-bit) 浮点元素。

_mm_add_pssse

添加 __m128 vectors。

_mm_add_sdsse2

返回一个新的 vector,其中 a 的低位元素替换为 ab 的低位元素之和。

_mm_add_sssse

添加 ab 的第一个组件,其他组件从 a 复制。

_mm_adds_epi8sse2

使用饱和度在 ab 中添加包装的 8 位整数。

_mm_adds_epi16sse2

使用饱和度在 ab 中添加包装的 16 位整数。

_mm_adds_epu8sse2

使用饱和度在 ab 中添加包装的无符号 8 位整数。

_mm_adds_epu16sse2

使用饱和度在 ab 中添加包装的无符号 16 位整数。

_mm_addsub_pdsse3

或者,在 a 中的包装的双精度 (64-bit) 浮点元素中加减 b 中的 to/from 包装的元素。

_mm_addsub_pssse3

或者,在 a 中的包装的单精度 (32-bit) 浮点元素上加减 b 中的包装的元素 to/from。

_mm_aesdec_si128aes

a 中的数据 (state) 执行一轮 AES 解密流程。

_mm_aesdeclast_si128aes

a 中的数据 (state) 执行 AES 解密流的最后一轮。

_mm_aesenc_si128aes

a 中的数据 (state) 执行一轮 AES 加密流程。

_mm_aesenclast_si128aes

a 中的数据 (state) 执行最后一轮 AES 加密流程。

_mm_aesimc_si128aes

a 上执行 InvMixColumns 转换。

_mm_aeskeygenassist_si128aes

协助扩展 AES 密钥。

_mm_alignr_epi8ssse3

ab 中的 16 字节块连接成一个 32 字节的临时结果,将结果右移 n 字节,然后返回低 16 字节。

_mm_and_pdsse2

计算 ab 中包装的双精度 (64-bit) 浮点元素的按位与。

_mm_and_pssse

包装的单精度 (32-bit) 浮点元素的按位与。

_mm_and_si128sse2

计算 ab 中 128 位 (表示整数数据) 的按位与。

_mm_andnot_pdsse2

计算 a 的按位 NOT,然后计算 b 的 AND。

_mm_andnot_pssse

包装的单精度 (32-bit) 浮点元素的按位与非运算。

_mm_andnot_si128sse2

计算 a 中 128 位 (代表整数数据) 的按位非,然后计算 b 的与。

_mm_avg_epu8sse2

ab 中的包装无符号 8 位整数的平均值。

_mm_avg_epu16sse2

ab 中的包装无符号 16 位整数的平均值。

_mm_blend_epi16sse4.1

使用掩码 IMM8 混合来自 ab 的 16 位整数包装。

_mm_blend_epi32avx2

使用控制掩码 IMM4 混合来自 ab 的包装的 32 位整数。

_mm_blend_pdsse4.1

使用控制掩码 IMM2ab 混合包装的双精度 (64-bit) 浮点元素

_mm_blend_pssse4.1

使用掩码 IMM4ab 混合包装的单精度 (32-bit) 浮点元素

_mm_blendv_epi8sse4.1

使用 mask 混合 ab 中的包装 8 位整数

_mm_blendv_pdsse4.1

使用 mask 混合来自 ab 的包装的双精度 (64-bit) 浮点元素

_mm_blendv_pssse4.1

使用 mask 混合来自 ab 的包装的单精度 (32-bit) 浮点元素

_mm_broadcast_ssavx

从内存向返回的 vector 的所有元素广播单精度 (32-bit) 浮点元素。

_mm_broadcastb_epi8avx2

a 的低位包装 8 位整数广播到 128 位返回值的所有元素。

_mm_broadcastd_epi32avx2

a 的低位包装 32 位整数广播到 128 位返回值的所有元素。

_mm_broadcastq_epi64avx2

a 的低位包装 64 位整数广播到 128 位返回值的所有元素。

_mm_broadcastsd_pdavx2

将低双精度 (64-bit) 浮点元素从 a 广播到 128 位返回值的所有元素。

_mm_broadcastss_psavx2

将低单精度 (32-bit) 浮点元素从 a 广播到 128 位返回值的所有元素。

_mm_broadcastw_epi16avx2

将低包装的 16 位整数从 a 广播到 128 位返回值的所有元素

_mm_bslli_si128sse2

a 左移 IMM8 个字节,同时移入零。

_mm_bsrli_si128sse2

a 右移 IMM8 个字节,同时移入零。

_mm_castpd_pssse2

[2 x double] 的 128 位浮点 vector 转换为 [4 x float] 的 128 位浮点 vector。

_mm_castpd_si128sse2

[2 x double] 的 128 位浮点 vector 转换为 128 位整数 vector。

_mm_castps_pdsse2

[4 x float] 的 128 位浮点 vector 转换为 [2 x double] 的 128 位浮点 vector。

_mm_castps_si128sse2

[4 x float] 的 128 位浮点 vector 转换为 128 位整数 vector。

_mm_castsi128_pdsse2

将 128 位整数 vector 转换为 [2 x double] 的 128 位浮点 vector。

_mm_castsi128_pssse2

将 128 位整数 vector 转换为 [4 x float] 的 128 位浮点 vector。

_mm_ceil_pdsse4.1

a 中的包装的双精度 (64-bit) 浮点元素四舍五入为整数,并将结果存储为包装的双精度浮点元素。

_mm_ceil_pssse4.1

a 中的包装的单精度 (32-bit) 浮点元素四舍五入为整数,并将结果存储为包装的单精度浮点元素。

_mm_ceil_sdsse4.1

b 中的下部双精度 (64-bit) 浮点元素四舍五入为整数,将结果作为双精度浮点元素存储在本征结果的下部元素中,并将上部元素从 a 复制到上部内在结果的元素。

_mm_ceil_sssse4.1

b 中的下部单精度 (32-bit) 浮点元素四舍五入为整数,将结果作为单精度浮点元素存储在内部结果的下部元素中,并将高 3 个包装的元素从 a 复制到内在结果的上层要素。

_mm_clflushsse2

使高速缓存层次结构中所有级别的包含 p 的高速缓存行失效并刷新。

_mm_clmulepi64_si128pclmulqdq

在有限域 GF(2^k) 上执行两个 64 位多项式的无进位乘法。

_mm_cmp_pdavx,sse2

根据 IMM5 指定的比较操作数比较 ab 中包装的双精度 (64-bit) 浮点元素。

_mm_cmp_psavx,sse

根据 IMM5 指定的比较操作数比较 ab 中包装的单精度 (32-bit) 浮点元素。

_mm_cmp_sdavx,sse2

根据 IMM5 指定的比较操作数,比较 ab 中的低位双精度浮点元素 (64-bit),将结果存入返回的 vector 的低位元素,并将 a 的高位元素复制到返回的 vector 的高位元素。

_mm_cmp_ssavx,sse

根据 IMM5 指定的比较操作数比较 ab 中的低位单精度 (32-bit) 浮点元素,将结果存储在返回的 vector 的低位元素中,并将高 3 个包装的元素从 a 复制到返回 vector。

_mm_cmpeq_epi8sse2

比较 ab 中的包装 8 位整数是否相等。

_mm_cmpeq_epi16sse2

比较 ab 中的包装的 16 位整数是否相等。

_mm_cmpeq_epi32sse2

比较 ab 中的包装 32 位整数是否相等。

_mm_cmpeq_epi64sse4.1

比较 ab 中的包装 64 位整数是否相等

_mm_cmpeq_pdsse2

比较 ab 中的相应元素是否相等。

_mm_cmpeq_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果输入元素相等,则输出 vector 中的结果将为 0xffffffff,否则为 0

_mm_cmpeq_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的相等比较取代。

_mm_cmpeq_sssse

比较两个输入中的最低 f32 是否相等。 如果两个输入相等,结果的最低 32 位将为 0xffffffff,否则为 0。 结果的高 96 位是 a 的高 96 位。

_mm_cmpestrasse4.2

使用 IMM8 中的控件将 ab 中的包装字符串与长度 lalb 进行比较,如果 b 不包含空字符且结果掩码为零,则返回 1,否则返回 0

_mm_cmpestrcsse4.2

使用 IMM8 中的控件将 ab 中的包装字符串与长度 lalb 进行比较,如果结果掩码非零则返回 1,否则返回 0

_mm_cmpestrisse4.2

使用 IMM8 中的控件将包装的字符串 ab 与长度 lalb 进行比较,并返回生成的索引。 与 _mm_cmpistri 相似,但 _mm_cmpistri 隐式确定 ab 的长度。

_mm_cmpestrmsse4.2

使用 IMM8 中的控件将 ab 中包装的字符串与长度 lalb 进行比较,并返回生成的掩码。

_mm_cmpestrosse4.2

使用 IMM8 中的控件将 ab 中的包装字符串与长度 lalb 进行比较,并返回结果位掩码的位 0

_mm_cmpestrssse4.2

使用 IMM8 中的控件将 ab 中的包装字符串与长度 lalb 进行比较,如果 a 中的任何字符为空,则返回 1,否则返回 0

_mm_cmpestrzsse4.2

使用 IMM8 中的控件将 ab 中的包装字符串与长度 lalb 进行比较,如果 b 中的任何字符为空,则返回 1,否则返回 0

_mm_cmpge_pdsse2

比较 ab 中的对应元素是否大于等于。

_mm_cmpge_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素大于或等于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

_mm_cmpge_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素大于或等于的比较所取代。

_mm_cmpge_sssse

比较两个输入的最低 f32 大于或等于。 如果 a.extract(0) 大于或等于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

_mm_cmpgt_epi8sse2

比较 ab 中的包装的 8 位整数是否大于。

_mm_cmpgt_epi16sse2

比较 ab 中的包装的 16 位整数是否大于。

_mm_cmpgt_epi32sse2

比较 ab 中的包装的 32 位整数是否大于。

_mm_cmpgt_epi64sse4.2

比较 ab 中的包装的 64 位整数是否大于,返回结果。

_mm_cmpgt_pdsse2

比较 ab 中的对应元素是否大于。

_mm_cmpgt_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素大于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

_mm_cmpgt_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素大于的比较所代替。

_mm_cmpgt_sssse

比较两个输入的最低 f32 大于。 如果 a.extract(0) 大于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

_mm_cmpistrasse4.2

使用 IMM8 中的控件比较 ab 中隐含长度的包装字符串,如果 b 不包含空字符且结果掩码为零,则返回 1,否则返回 0

_mm_cmpistrcsse4.2

使用 IMM8 中的控件将包装的字符串与 ab 中的隐式长度进行比较,如果结果掩码不为零,则返回 1,否则返回 0

_mm_cmpistrisse4.2

使用 IMM8 中的控件比较 ab 中隐含长度的包装字符串,并返回生成的索引。 与 _mm_cmpestri 相似,不同之处在于 _mm_cmpestri 需要明确指定 ab 的长度。

_mm_cmpistrmsse4.2

使用 IMM8 中的控件比较 ab 中隐含长度的包装的字符串,并返回生成的掩码。

_mm_cmpistrosse4.2

使用 IMM8 中的控件比较 ab 中隐含长度的包装字符串,并返回结果位掩码的位 0

_mm_cmpistrssse4.2

使用 IMM8 中的控件比较 ab 中隐含长度的包装字符串,如果 a 中的任何字符为空,则返回 1,否则返回 0

_mm_cmpistrzsse4.2

使用 IMM8 中的控件比较 ab 中隐含长度的包装字符串,如果 b 中的任何字符为空,则返回 1

_mm_cmple_pdsse2

比较 ab 中的对应元素是否小于等于

_mm_cmple_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素小于或等于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

_mm_cmple_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素小于或等于的比较所取代。

_mm_cmple_sssse

比较两个输入中的最低 f32 小于或等于。最低的 如果 a.extract(0) 小于或等于 b.extract(0),则结果的 32 位将为 0xffffffff,否则为 0。 结果的高 96 位是 a 的高 96 位。

_mm_cmplt_epi8sse2

比较 ab 中小于 8 的包装的 8 位整数。

_mm_cmplt_epi16sse2

比较 ab 中的包装的 16 位整数小于。

_mm_cmplt_epi32sse2

比较 ab 中的包装的 32 位整数是否小于。

_mm_cmplt_pdsse2

比较 ab 中的对应元素小于。

_mm_cmplt_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素小于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

_mm_cmplt_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的小于比较所代替。

_mm_cmplt_sssse

比较两个输入的最低 f32 小于。 如果 a.extract(0) 小于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

_mm_cmpneq_pdsse2

比较 ab 中的对应元素是否相等。

_mm_cmpneq_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果输入元素不相等,则输出 vector 中的结果将为 0xffffffff,否则为 0

_mm_cmpneq_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的不相等比较代替。

_mm_cmpneq_sssse

比较两个输入中最低的 f32 是否不相等。 如果 a.extract(0) 不等于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

_mm_cmpnge_pdsse2

比较 ab 中的对应元素是否大于等于。

_mm_cmpnge_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素不大于或等于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

_mm_cmpnge_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的不大于等于相等的比较所取代。

_mm_cmpnge_sssse

比较两个输入中的最低 f32,以得出不大于等于。 如果 a.extract(0) 不大于或等于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

_mm_cmpngt_pdsse2

比较 ab 中的对应元素是否大于。

_mm_cmpngt_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素不大于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

_mm_cmpngt_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的不大于比较所代替。

_mm_cmpngt_sssse

比较两个输入的最低 f32,以得出不大于。 如果 a.extract(0) 不大于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

_mm_cmpnle_pdsse2

比较 ab 中的对应元素是否等于或大于等于。

_mm_cmpnle_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素不小于或等于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

_mm_cmpnle_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素相等或不小于的比较所取代。

_mm_cmpnle_sssse

比较两个输入的最低 f32 等于或小于等于。 如果 a.extract(0) 不小于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

_mm_cmpnlt_pdsse2

比较 ab 中的对应元素不少于。

_mm_cmpnlt_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 如果 a 中的输入元素不小于 b 中的相应元素,则输出 vector 中的结果将为 0xffffffff,否则为 0

_mm_cmpnlt_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素相当的比较所取代。

_mm_cmpnlt_sssse

比较两个输入中的最低 f32 不少于。 如果 a.extract(0) 不小于 b.extract(0),则结果的最低 32 位将为 0xffffffff,否则为 0

_mm_cmpord_pdsse2

比较 ab 中的相应元素以查看 NaN 是否都不是。

_mm_cmpord_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 返回具有两个可能的位模式之一的四个浮点数。 如果 ab 中的输入元素是有序的 (即,它们都不是 NaN),则输出 vector 中的元素将为 0xffffffff,否则为 0。

_mm_cmpord_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素都与 NaN 进行比较的结果所代替。 如果两者都不等于 NaN,则使用 0xFFFFFFFFFFFFFFFF,否则使用 0

_mm_cmpord_sssse

检查两个输入中最低的 f32 是否已订购。 如果 a.extract(0)b.extract(0) 都不是 NaN,则结果的最低 32 位将为 0xffffffff,否则为 0

_mm_cmpunord_pdsse2

比较 ab 中的相应元素,以查看是否为 NaN

_mm_cmpunord_pssse

a 中的四个浮点数中的每个与 b 中的对应元素进行比较。 返回具有两个可能的位模式之一的四个浮点数。 如果 ab 中的输入元素无序 (即,至少其中一个是 NaN),则输出 vector 中的元素将为 0xffffffff,否则为 0。

_mm_cmpunord_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素都与 NaN 进行比较的结果所代替。 如果其中一个等于 NaN,则使用 0xFFFFFFFFFFFFFFFF,否则使用 0

_mm_cmpunord_sssse

检查两个输入中最低的 f32 是否无序。 如果 a.extract(0)b.extract(0) 中的任何一个为 NaN,则结果的最低 32 位将为 0xffffffff,否则为 0

_mm_comieq_sdsse2

比较 ab 的下部元素是否相等。

_mm_comieq_sssse

比较 ab 的低位的两个 32 位浮点数。 如果相等则返回 1,否则返回 0

_mm_comige_sdsse2

比较 ab 的下限元素是否大于等于。

_mm_comige_sssse

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值大于或等于 b 中的值,则返回 1,否则返回 0

_mm_comigt_sdsse2

比较 ab 的下限元素是否大于。

_mm_comigt_sssse

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值大于 b 中的值,则返回 1,否则返回 0

_mm_comile_sdsse2

比较 ab 的下限元素是否等于或小于等于。

_mm_comile_sssse

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值小于或等于 b 中的值,则返回 1,否则返回 0

_mm_comilt_sdsse2

比较 ab 的下限元素小于。

_mm_comilt_sssse

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值小于 b 中的值,则返回 1,否则返回 0

_mm_comineq_sdsse2

比较 ab 的下部元素是否相等。

_mm_comineq_sssse

比较 ab 的低位的两个 32 位浮点数。 如果它们不相等,则返回 1,否则返回 0

_mm_crc32_u8sse4.2

crc 中的初始值开始,返回无符号 8 位整数 v 的累积 CRC32 值。

_mm_crc32_u16sse4.2

crc 中的初始值开始,返回无符号 16 位整数 v 的累积 CRC32 值。

_mm_crc32_u32sse4.2

crc 中的初始值开始,返回无符号 32 位整数 v 的累积 CRC32 值。

_mm_cvt_si2sssse

_mm_cvtsi32_ss 的别名。

_mm_cvt_ss2sisse

_mm_cvtss_si32 的别名。

_mm_cvtepi8_epi16sse4.1

符号将 a 中的包装 8 位整数扩展为包装 16 位整数

_mm_cvtepi8_epi32sse4.1

符号将 a 中的包装 8 位整数扩展为包装 32 位整数

_mm_cvtepi8_epi64sse4.1

符号将 a 的低 8 字节中的包装的 8 位整数扩展为包装的 64 位整数

_mm_cvtepi16_epi32sse4.1

符号将 a 中的包装的 16 位整数扩展为包装的 32 位整数

_mm_cvtepi16_epi64sse4.1

符号将 a 中的包装 16 位整数扩展为包装 64 位整数

_mm_cvtepi32_epi64sse4.1

符号将 a 中的包装 32 位整数扩展为包装 64 位整数

_mm_cvtepi32_pdsse2

a 中的低位两个包装的 32 位整数转换为包装的双精度 (64-bit) 浮点元素。

_mm_cvtepi32_pssse2

a 中的包装的 32 位整数转换为包装的单精度 (32-bit) 浮点元素。

_mm_cvtepu8_epi16sse4.1

零将 a 中的包装的无符号 8 位整数扩展为包装的 16 位整数

_mm_cvtepu8_epi32sse4.1

零将 a 中的包装无符号 8 位整数扩展为包装 32 位整数

_mm_cvtepu8_epi64sse4.1

零将 a 中的包装无符号 8 位整数扩展为包装 64 位整数

_mm_cvtepu16_epi32sse4.1

零将 a 中的包装的无符号 16 位整数扩展为包装的 32 位整数

_mm_cvtepu16_epi64sse4.1

零将 a 中的包装的无符号 16 位整数扩展为包装的 64 位整数

_mm_cvtepu32_epi64sse4.1

零将 a 中的包装无符号 32 位整数扩展为包装 64 位整数

_mm_cvtpd_epi32sse2

a 中的包装的双精度 (64-bit) 浮点元素转换为包装的 32 位整数。

_mm_cvtpd_pssse2

a 中的包装的双精度 (64-bit) 浮点元素转换为包装的单精度 (32-bit) 浮点元素

_mm_cvtps_epi32sse2

a 中的包装的单精度 (32-bit) 浮点元素转换为包装的 32 位整数。

_mm_cvtps_pdsse2

a 中的包装的单精度 (32-bit) 浮点元素转换为包装的双精度 (64-bit) 浮点元素。

_mm_cvtsd_f64sse2

返回 a 的较低的双精度 (64-bit) 浮点元素。

_mm_cvtsd_si32sse2

将 a 中的较低双精度 (64-bit) 浮点元素转换为 32 位整数。

_mm_cvtsd_sssse2

b 中的下部双精度 (64-bit) 浮点元素转换为单精度 (32-bit) 浮点元素,将结果存储在返回值的下部元素中,并将上部元素从 a 复制到返回值的上部元素中。

_mm_cvtsi32_sdsse2

a 的下位元素转换为 f64 后,返回其下位元素为 ba

_mm_cvtsi32_si128sse2

返回 vector,其最低元素为 a,所有更高元素为 0

_mm_cvtsi32_sssse

将 32 位整数转换为 32 位浮点型。 结果 vector 是输入 vector a,其最低 32 位浮点数已由转换后的整数替换。

_mm_cvtsi128_si32sse2

返回 a 的最低元素。

_mm_cvtss_f32sse

从输入 vector 中提取最低的 32 位浮点数。

_mm_cvtss_sdsse2

b 中的下部单精度 (32-bit) 浮点元素转换为双精度 (64-bit) 浮点元素,将结果存储在返回值的下部元素中,然后将 a 的上部元素复制到返回值的上部元素中。

_mm_cvtss_si32sse

将输入 vector 中的最低 32 位浮点型转换为 32 位整数。

_mm_cvtt_ss2sisse

_mm_cvttss_si32 的别名。

_mm_cvttpd_epi32sse2

a 中的包装的双精度 (64-bit) 浮点元素转换为带截断的包装的 32 位整数。

_mm_cvttps_epi32sse2

a 中的包装的单精度 (32-bit) 浮点元素转换为带截断的包装的 32 位整数。

_mm_cvttsd_si32sse2

a 中较低的双精度 (64-bit) 浮点元素转换为带截断的 32 位整数。

_mm_cvttss_si32sse

将输入 vector 中的最低 32 位浮点型转换为带有截断的 32 位整数。

_mm_div_pdsse2

a 中的包装的双精度 (64-bit) 浮点元素除以 b 中的包装的元素。

_mm_div_pssse

除 __m128 vectors。

_mm_div_sdsse2

返回一个新的 vector,其中 a 的下限元素被 a 的下限元素除以 b 的下限元素所代替。

_mm_div_sssse

b 的第一个组件除以 a,其他组件则从 a 复制。

_mm_dp_pdsse4.1

返回两个 __m128d vectors 的点积。

_mm_dp_pssse4.1

返回两个 __m128 vectors 的点积。

_mm_extract_epi8sse4.1

a 中提取一个 8 位整数,用 IMM8 选择。 返回包含零扩展整数数据的 32 位整数。 See LLVM commit D20468.

_mm_extract_epi16sse2

返回 aimm8 元素。

_mm_extract_epi32sse4.1

IMM8 选择的 a 中提取 32 位整数

_mm_extract_pssse4.1

a 中提取单精度 (32-bit) 浮点元素,用 IMM8 选择

_mm_extract_si64sse4a

x 的低 64 位提取 y 指定的位范围。

_mm_floor_pdsse4.1

a 中的包装的双精度 (64-bit) 浮点元素四舍五入为整数,并将结果存储为包装的双精度浮点元素。

_mm_floor_pssse4.1

a 中的包装的单精度 (32-bit) 浮点元素四舍五入为整数,并将结果存储为包装的单精度浮点元素。

_mm_floor_sdsse4.1

b 中的下部双精度 (64-bit) 浮点元素四舍五入为整数值,将结果作为双精度浮点元素存储在内部结果的下部元素中,并将上部元素从 a 复制到上部内在结果的元素。

_mm_floor_sssse4.1

b 中的下部单精度 (32-bit) 浮点元素四舍五入为整数值,将结果作为单精度浮点元素存储在内部结果的下部元素中,然后将 a 的上部 3 个包装的元素复制到内在结果的上层要素。

_mm_fmadd_pdfma

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并将中间结果与 c 中的包装的元素相加。

_mm_fmadd_psfma

ab 中的包装单精度 (32-bit) 浮点元素相乘,并将中间结果添加到 c 中的包装元素中。

_mm_fmadd_sdfma

ab 中的较低的双精度 (64-bit) 浮点元素相乘,并将中间结果与 c 中的较低的元素相加。

_mm_fmadd_ssfma

ab 中较低的单精度 (32-bit) 浮点元素相乘,并将中间结果与 c 中的较低元素相加。

_mm_fmaddsub_pdfma

ab 中的包装的双精度 (64-bit) 浮点元素相乘,或者在 c to/from 中将包装的元素相加或减去中间结果。

_mm_fmaddsub_psfma

ab 中包装的单精度 (32-bit) 浮点元素相乘,或者将 c 中包装的元素加/减到中间结果中。

_mm_fmsub_pdfma

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并从中间结果中减去 c 中的包装的双精度元素。

_mm_fmsub_psfma

ab 中的包装的单精度 (32-bit) 浮点元素相乘,并从中间结果中减去 c 中的包装元素。

_mm_fmsub_sdfma

ab 中的较低的双精度 (64-bit) 浮点元素相乘,并从中间结果中减去 c 中的较低的元素。 将结果存储在返回值的低位元素中,并将高位元素从 a 复制到结果的高位元素。

_mm_fmsub_ssfma

ab 中的较低单精度 (32-bit) 浮点元素相乘,并从中间结果中减去 c 中的较低元素。 将结果存储在返回值的低位元素中,并将 3 个高位元素从 a 复制到结果的高位元素。

_mm_fmsubadd_pdfma

ab 中的包装的双精度 (64-bit) 浮点元素相乘,也可以从中间结果中减去或加上 c 中的包装元素。

_mm_fmsubadd_psfma

ab 中的包装单精度 (32-bit) 浮点元素相乘,或者将 c 中的包装元素从中间结果中减去或加上。

_mm_fnmadd_pdfma

ab 中的包装双精度 (64-bit) 浮点元素相乘,然后将取反的中间结果添加到 c 中的包装元素中。

_mm_fnmadd_psfma

ab 中的包装单精度 (32-bit) 浮点元素相乘,并将取反的中间结果添加到 c 中的包装元素中。

_mm_fnmadd_sdfma

ab 中较低的双精度 (64-bit) 浮点元素相乘,并将取反的中间结果添加到 c 中的较低元素。 将结果存储在返回值的低位元素中,并将高位元素从 a 复制到结果的高位元素。

_mm_fnmadd_ssfma

ab 中较低的单精度 (32-bit) 浮点元素相乘,并将取反的中间结果与 c 中的较低元素相加。 将结果存储在返回值的低位元素中,并将 3 个高位元素从 a 复制到结果的高位元素。

_mm_fnmsub_pdfma

ab 中的包装的双精度 (64-bit) 浮点元素相乘,并从取反的中间结果中减去 c 中的包装的元素。

_mm_fnmsub_psfma

ab 中的包装的单精度 (32-bit) 浮点元素相乘,并从取反的中间结果中减去 c 中的包装的元素。

_mm_fnmsub_sdfma

ab 中较低的双精度 (64-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的包装的元素。 将结果存储在返回值的低位元素中,并将高位元素从 a 复制到结果的高位元素。

_mm_fnmsub_ssfma

ab 中较低的单精度 (32-bit) 浮点元素相乘,然后从取反的中间结果中减去 c 中的包装元素。 将结果存储在返回值的低位元素中,并将 3 个高位元素从 a 复制到结果的高位元素。

_mm_getcsrsse

获取 MXCSR 控制和状态寄存器的无符号 32 位值。

_mm_hadd_epi16ssse3

水平相加 2 个包装的包中包含的相邻值对 [8 x i16] 的 128 位 vectors。

_mm_hadd_epi32ssse3

水平相加 2 个包装的包中包含的相邻值对 [4 x i32] 的 128 位 vectors。

_mm_hadd_pdsse3

ab 中水平添加相邻对的双精度 (64-bit) 浮点元素,并包装结果。

_mm_hadd_pssse3

ab 中水平添加相邻对的单精度 (32-bit) 浮点元素对,并包装结果。

_mm_hadds_epi16ssse3

水平相加 2 个包装的包中包含的相邻值对 [8 x i16] 的 128 位 vectors。大于 7FFFh 的正和饱和到 7FFFh。 小于 8000h 的负数和将饱和到 8000h。

_mm_hsub_epi16ssse3

水平减去 [8 x i16] 的 2 个包装的 128 位 vectors 中包含的相邻值对。

_mm_hsub_epi32ssse3

水平减去 [4 x i32] 的 2 个包装的 128 位 vectors 中包含的相邻值对。

_mm_hsub_pdsse3

水平减去 ab 中相邻的双精度 (64-bit) 浮点元素对,然后包装结果。

_mm_hsub_pssse3

ab 中水平添加相邻对的单精度 (32-bit) 浮点元素对,并包装结果。

_mm_hsubs_epi16ssse3

水平减去 [8 x i16] 的 2 个包装的 128 位 vectors 中包含的相邻值对。 正差异大于 7FFFh 饱和到 7FFFh。小于 8000h 的负差会饱和到 8000h。

_mm_i32gather_epi32avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm_i32gather_epi64avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm_i32gather_pdavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm_i32gather_psavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm_i64gather_epi32avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm_i64gather_epi64avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm_i64gather_pdavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm_i64gather_psavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。

_mm_insert_epi8sse4.1

返回 a 的副本,其中 i 的 8 位整数插入到 IMM8 指定的位置。

_mm_insert_epi16sse2

返回一个新的 vector,其中 aimm8 元素替换为 i

_mm_insert_epi32sse4.1

返回 a 的副本,其中 i 的 32 位整数插入到 IMM8 指定的位置。

_mm_insert_pssse4.1

a 中选择单个值存储在 b 中的某个位置,然后根据 IMM8 将元素归零。

_mm_insert_si64sse4a

y[length:0] 位插入 index 处的 x

_mm_lddqu_si128sse3

从未对齐的内存中加载 128 位整数数据。 当数据越过缓存行边界时,此内联函数可能比 _mm_loadu_si128 更好。

_mm_lfencesse2

对在此指令之前发布的所有内存加载指令执行序列化操作。

_mm_load1_pdsse2

将内存中的双精度 (64-bit) 浮点元素加载到返回的 vector 的两个元素中。

_mm_load1_pssse

通过将从 p 读取的值复制到所有元素中来构造 __m128

_mm_load_pdsse2

从内存中将 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 加载到返回的 vector 中。

_mm_load_pd1sse2

将内存中的双精度 (64-bit) 浮点元素加载到返回的 vector 的两个元素中。

_mm_load_pssse

aligned 内存中的四个 f32 值加载到 __m128 中。 如果指针未与 128 位边界 (16 个字节) 对齐,则将触发一般保护错误 (致命程序崩溃)。

_mm_load_ps1sse

_mm_load1_ps 的别名

_mm_load_sdsse2

将 64 位双精度值加载到 128 位整数 vector 并清除高位元素。

_mm_load_si128sse2

从内存中将 128 位整数数据加载到新的 vector 中。

_mm_load_sssse

使用从 p 读取的最低元素并将其他元素设置为零来构造 __m128

_mm_loaddup_pdsse3

将内存中的双精度 (64-bit) 浮点元素加载到返回 vector 的两个元素中。

_mm_loadh_pdsse2

将双精度值加载到 [2 x double] 的 128 位 vector 的高阶位中。 低位从第一个操作数的低位复制而来。

_mm_loadl_epi64sse2

将内存中的 64 位整数加载到返回的 vector 的第一个元素中。

_mm_loadl_pdsse2

将双精度值加载到 [2 x double] 的 128 位 vector 的低位中。 高阶位是从第一个操作数的高阶位复制而来的。

_mm_loadr_pdsse2

以相反的顺序将 2 个双精度 (64-bit) 浮点元素从内存加载到返回的 vector 中。 mem_addr 必须对齐 可能会生成 16 字节边界或一般保护异常。

_mm_loadr_pssse

从对齐的内存中以相反的顺序将四个 f32 值加载到 __m128 中。

_mm_loadu_pdsse2

从内存中将 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 加载到返回的 vector 中。

_mm_loadu_pssse

从内存中将四个 f32 值加载到 __m128 中。内存对齐没有任何限制。 对于对齐的内存 _mm_load_ps 可能更快。

_mm_loadu_si64sse

将未对齐的 64 位整数数据从内存加载到新的 vector 中。

_mm_loadu_si128sse2

从内存中将 128 位整数数据加载到新的 vector 中。

_mm_madd_epi16sse2

ab 中相乘,然后水平相加带符号的 16 位整数。

_mm_maddubs_epi16ssse3

将第一个源操作数中包含的包装的 8 位无符号整数值与第二个源操作数中包含的包装的 8 位有符号整数值的对应对相乘,相加具有符号饱和度的连续乘积对,并将 16 位和写入到目标中的相应位。

_mm_mask_i32gather_epi32avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm_mask_i32gather_epi64avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm_mask_i32gather_pdavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm_mask_i32gather_psavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm_mask_i64gather_epi32avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm_mask_i64gather_epi64avx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm_mask_i64gather_pdavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm_mask_i64gather_psavx2

slice 返回由 offsets * scale 确定的偏移量的值,其中 scale 应该为 1、2、4 或 8。 如果设置了掩码,请从该位置从 src 加载值。

_mm_maskload_epi32avx2

使用 maskmem_addr 指向的内存中加载包装的 32 位整数 (当未在相应元素中设置最高位时,元素清零)。

_mm_maskload_epi64avx2

使用 maskmem_addr 指向的内存中加载包装的 64 位整数 (当未在相应元素中设置最高位时,元素清零)。

_mm_maskload_pdavx

使用 mask 将包装的双精度 (64-bit) 浮点元素从内存加载到结果中 (当未设置相应元素的高位时,元素清零)。

_mm_maskload_psavx

使用 mask 将包装的单精度 (32-bit) 浮点元素从内存加载到结果中 (当未设置相应元素的高位时,元素清零)。

_mm_maskmoveu_si128sse2

使用 mask 有条件地将 a 中的 8 位整数元素存储到内存中。

_mm_maskstore_epi32avx2

使用 maska 中的包装后的 32 位整数存储到 mem_addr 指向的内存中 (当在相应元素中未设置最高位时,不存储元素)。

_mm_maskstore_epi64avx2

使用 maska 中的包装 64 位整数存储到 mem_addr 指向的内存中 (当未在相应元素中设置最高位时,不存储元素)。

_mm_maskstore_pdavx

使用 mask 将包装的双精度 (64-bit) 浮点元素从 a 存储到内存中。

_mm_maskstore_psavx

使用 mask 将包装的单精度 (32-bit) 浮点元素从 a 存储到内存中。

_mm_max_epi8sse4.1

比较 ab 中的包装的 8 位整数,并以 dst 返回包装的最大值。

_mm_max_epi16sse2

比较 ab 中的包装的 16 位整数,并返回包装的最大值。

_mm_max_epi32sse4.1

比较 ab 中的包装的 32 位整数,并返回包装的最大值。

_mm_max_epu8sse2

比较 ab 中包装的无符号 8 位整数,并返回包装的最大值。

_mm_max_epu16sse4.1

比较 ab 中包装的无符号 16 位整数,并返回包装的最大值。

_mm_max_epu32sse4.1

比较 ab 中的包装无符号 32 位整数,并返回包装最大值。

_mm_max_pdsse2

返回一个新的 vector,它具有 ab 中相应元素的最大值。

_mm_max_pssse

比较 ab 中包装的单精度 (32-bit) 浮点元素,并返回相应的最大值。

_mm_max_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素最大值取代。

_mm_max_sssse

比较 ab 的第一个单精度 (32-bit) 浮点元素,并在返回值的第一个元素中返回最大值,从 a 复制其他元素。

_mm_mfencesse2

对在此指令之前发布的所有从内存加载和存储到内存指令执行序列化操作。

_mm_min_epi8sse4.1

比较 ab 中的包装的 8 位整数,并以 dst 返回包装的最小值。

_mm_min_epi16sse2

比较 ab 中包装的 16 位整数,并返回包装的最小值。

_mm_min_epi32sse4.1

比较 ab 中的包装的 32 位整数,并返回包装的最小值。

_mm_min_epu8sse2

比较 ab 中包装的无符号 8 位整数,并返回包装的最小值。

_mm_min_epu16sse4.1

比较 ab 中的包装的无符号 16 位整数,并返回包装的最小值。

_mm_min_epu32sse4.1

比较 ab 中的包装的无符号 32 位整数,并返回包装的最小值。

_mm_min_pdsse2

返回一个新的 vector,它具有 ab 中相应元素的最小值。

_mm_min_pssse

比较 ab 中包装的单精度 (32-bit) 浮点元素,并返回相应的最小值。

_mm_min_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素的最小值替换。

_mm_min_sssse

比较 ab 的第一个单精度 (32-bit) 浮点元素,并在返回值的第一个元素中返回最小值,从 a 复制其他元素。

_mm_minpos_epu16sse4.1

在 128 位 __m128i vector 中查找最小的无符号 16 位元素,并返回一个 vector,其中在第一个位置包含其值,在第二个位置包含其索引; 所有其他元素都设置为零。

_mm_move_epi64sse2

返回 vector,其中从 a 提取低位元素,其高位元素为零。

_mm_move_sdsse2

构造 [2 x double] 的 128 位浮点 vector。下层 将 64 位设置为第二个参数的低 64 位。上层 将 64 位设置为第一个参数的高 64 位。

_mm_move_sssse

返回 __m128,其中第一个组件来自 b,其余组件来自 a

_mm_movedup_pdsse3

a 复制低双精度 (64-bit) 浮点元素。

_mm_movehdup_pssse3

a 中重复的奇数索引单精度 (32-bit) 浮点元素。

_mm_movehl_pssse

合并 ab 的上半部分。b 的上半部分占据结果的下半部分。

_mm_moveldup_pssse3

a 中重复的偶数索引单精度 (32-bit) 浮点元素。

_mm_movelh_pssse

合并 ab 的下半部分。b 的下半部分占据结果的上半部分。

_mm_movemask_epi8sse2

返回 a 中每个元素的最高有效位的掩码。

_mm_movemask_pdsse2

返回 a 中每个元素的最高有效位的掩码。

_mm_movemask_pssse

返回 a 中每个元素的最高有效位的掩码。

_mm_mpsadbw_epu8sse4.1

减去 8 位无符号整数值,然后将差的绝对值计算为目标中的相应位。

_mm_mul_epi32sse4.1

ab 中每个包装的 64 位元素的低 32 位整数相乘,并返回带符号的 64 位结果。

_mm_mul_epu32sse2

ab 中每个包装的 64 位元素中的低 32 位无符号整数相乘。

_mm_mul_pdsse2

ab 中的包装的双精度 (64-bit) 浮点元素相乘。

_mm_mul_pssse

乘以 __m128 vectors。

_mm_mul_sdsse2

返回一个新的 vector,其中 a 的低位元素被 ab 的低位元素相乘。

_mm_mul_sssse

ab 的第一个组件相乘,然后从 a 复制其他组件。

_mm_mulhi_epi16sse2

ab 中的包装的 16 位整数相乘。

_mm_mulhi_epu16sse2

ab 中包装的无符号 16 位整数相乘。

_mm_mulhrs_epi16ssse3

将包装的 16 位带符号整数值相乘,通过右移将 32 位乘积截断为 18 个最高有效位,通过加 1 舍入舍入后的值,并将 [16:1] 位写入目标位置。

_mm_mullo_epi16sse2

ab 中的包装的 16 位整数相乘。

_mm_mullo_epi32sse4.1

ab 中包装的 32 位整数相乘,产生中间值 64 位整数,并返回最低的 32 位 (无论它们是什么),都将重新解释为有符号整数。 虽然 pmulld __m128i::splat(2), __m128i::splat(2) 返回明显的 __m128i::splat(4),但由于包装算术,pmulld __m128i::splat(i32::MAX), __m128i::splat(2) 将返回负数。

_mm_or_pdsse2

计算 ab 的按位或。

_mm_or_pssse

包装的单精度 (32-bit) 浮点元素的按位或。

_mm_or_si128sse2

计算 ab 中 128 位 (表示整数数据) 的按位或。

_mm_packs_epi16sse2

使用带符号的饱和度将包装的 16 位整数从 ab 转换为包装的 8 位整数。

_mm_packs_epi32sse2

使用带符号的饱和度将包装的 32 位整数从 ab 转换为包装的 16 位整数。

_mm_packus_epi16sse2

使用无符号饱和度将 ab 的包装的 16 位整数转换为包装的 8 位整数。

_mm_packus_epi32sse4.1

使用无符号饱和度将包装的 32 位整数从 ab 转换为包装的 16 位整数

_mm_pause

向处理器提示代码序列是自旋等待循环。

_mm_permute_pdavx,sse2

使用 imm8 中的控件对 a 中的双精度 (64-bit) 浮点元素进行混洗。

_mm_permute_psavx,sse

使用 imm8 中的控件对 a 中的单精度 (32-bit) 浮点元素进行混洗。

_mm_permutevar_pdavx

使用 b 中的控件对 a 中的双精度 (64-bit) 浮点元素进行混洗。

_mm_permutevar_psavx

使用 b 中的控件对 a 中的单精度 (32-bit) 浮点元素进行混洗。

_mm_prefetchsse

使用给定的 STRATEGY 获取包含地址 p 的缓存行。

_mm_rcp_pssse

返回 a 中包装的单精度 (32-bit) 浮点元素的近似倒数。

_mm_rcp_sssse

返回 a 中第一个单精度 (32-bit) 浮点元素的近似倒数,其他元素不变。

_mm_round_pdsse4.1

使用 ROUNDING 参数将 a 中的包装的双精度 (64-bit) 浮点元素舍入,并将结果存储为包装的双精度浮点元素。

_mm_round_pssse4.1

使用 ROUNDING 参数将 a 中的包装的单精度 (32-bit) 浮点元素舍入,并将结果存储为包装的单精度浮点元素。

_mm_round_sdsse4.1

使用 ROUNDING 参数将 b 中的低位双精度浮点元素 (64-bit) 舍入,将结果作为双精度浮点元素存储在内部结果的低位元素中,并将高位元素从 a 复制到高位元素的内在结果。

_mm_round_sssse4.1

使用 ROUNDING 参数将 b 中的低位单精度 (32-bit) 浮点元素四舍五入,将结果作为单精度浮点元素存储在内部结果的低位元素中,并将高 3 个包装的元素从 a 复制到内在结果的上层元素。

_mm_rsqrt_pssse

返回 a 中包装的单精度 (32-bit) 浮点元素的近似倒数平方根。

_mm_rsqrt_sssse

返回 a 中第一个单精度 (32-bit) 浮点元素的近似倒数平方根,其他元素不变。

_mm_sad_epu8sse2

包装无符号 8 位整数的绝对差之和。

_mm_set1_epi8sse2

向所有元素广播 8 位整数 a

_mm_set1_epi16sse2

向所有元素广播 16 位整数 a

_mm_set1_epi32sse2

向所有元素广播 32 位整数 a

_mm_set1_epi64xsse2

向所有元素广播 64 位整数 a

_mm_set1_pdsse2

向返回值的所有元素广播双精度 (64-bit) 浮点值 a。

_mm_set1_pssse

创建一个 __m128,并将所有元素设置为 a

_mm_set_epi8sse2

使用提供的值设置包装的 8 位整数。

_mm_set_epi16sse2

使用提供的值设置包装的 16 位整数。

_mm_set_epi32sse2

使用提供的值设置包装的 32 位整数。

_mm_set_epi64xsse2

使用提供的值 (从最高到最低) 设置包装的 64 位整数。

_mm_set_pdsse2

使用提供的值在返回值中设置包装的双精度 (64-bit) 浮点元素。

_mm_set_pd1sse2

向返回值的所有元素广播双精度 (64-bit) 浮点值 a。

_mm_set_pssse

从最高到最低的四个浮点值构造 __m128

_mm_set_ps1sse

_mm_set1_ps 的别名

_mm_set_sdsse2

将双精度 (64-bit) 浮点元素 a 复制到包装的 64 位返回值的低位元素。

_mm_set_sssse

创建一个 __m128,将最低元素设置为 a,将剩余部分设置为零。

_mm_setcsrsse

用 32 位无符号整数值设置 MXCSR 寄存器。

_mm_setr_epi8sse2

以相反的顺序设置提供的值的包装 8 位整数。

_mm_setr_epi16sse2

以相反的顺序设置提供的值的包装 16 位整数。

_mm_setr_epi32sse2

以相反的顺序设置提供的值的包装 32 位整数。

_mm_setr_pdsse2

在返回值中设置包装的双精度 (64-bit) 浮点元素,并以相反的顺序提供提供的值。

_mm_setr_pssse

从四个最低到最高的浮点值构造 __m128

_mm_setzero_pdsse2

返回全零的包装的双精度 (64-bit) 浮点元素。

_mm_setzero_pssse

创建一个 __m128,并将所有元素初始化为零。

_mm_setzero_si128sse2

返回所有元素均设置为零的 vector。

_mm_sfencesse

对在此指令之前发出的所有存储到内存指令执行序列化操作。

_mm_sha1msg1_epu32sha

使用来自 ab 的先前消息值,对接下来的四个 SHA1 消息值 (无符号的 32 位整数) 执行中间计算,并返回结果。

_mm_sha1msg2_epu32sha

使用 a 中的中间结果和 b 中的先前消息值,对接下来的四个 SHA1 消息值 (无符号的 32 位整数) 执行最终计算,并返回结果。

_mm_sha1nexte_epu32sha

经过四轮运算后,从当前 SHA1 状态变量 a 计算 SHA1 状态变量 E,将该值添加到 b 中的计划值 (无符号 32 位整数),然后返回结果。

_mm_sha1rnds4_epu32sha

使用来自 a 的初始 SHA1 状态 (A,B,C,D) 以及接下来的 4 个回合消息值 (一些无符号的 32 位整数) 和来自 b 的状态变量 E 的一些预先计算的总和,执行四轮 SHA1 操作,并返回更新的 SHA1 状态 (A,B,C,D)。 FUNC 包含逻辑函数和舍入常量。

_mm_sha256msg1_epu32sha

使用来自 ab 的先前消息值,对接下来的四个 SHA256 消息值 (无符号的 32 位整数) 执行中间计算,并返回结果。

_mm_sha256msg2_epu32sha

使用以前的 ab 的消息值,对接下来的四个 SHA256 消息值 (无符号的 32 位整数) 执行最终计算,并返回结果。

_mm_sha256rnds2_epu32sha

使用来自 a 的初始 SHA256 状态 (C,D,G,H),来自 b 的初始 SHA256 状态 (A,B,E,F) 以及接下来的 2 个回合消息值 (无符号的 32 位整数) 和来自 k 的相应回合常量的预先计算的总和,执行 2 轮 SHA256 操作。,并将更新的 SHA256 状态 (A,B,E,F) 存储在 dst 中。

_mm_shuffle_epi8ssse3

根据 b 的内容,打乱 a 中的字节。

_mm_shuffle_epi32sse2

使用 IMM8 中的控件在 a 中打乱 32 位整数。

_mm_shuffle_pdsse2

从两个创建一个 [2 x double] 的 128 位浮点 vector [2 x double] 的 128 位 vector 参数,使用立即值参数作为说明符。

_mm_shuffle_pssse

使用 MASKab 中打乱包装的单精度 (32-bit) 浮点元素。

_mm_shufflehi_epi16sse2

使用 IMM8 中的控件在 a 的高 64 位中打乱 16 位整数。

_mm_shufflelo_epi16sse2

使用 IMM8 中的控件在 a 的低 64 位中打乱 16 位整数。

_mm_sign_epi8ssse3

b 中相应的带符号 8 位整数为负时,对 a 中的 8 位包装整数取反,并返回结果。

_mm_sign_epi16ssse3

b 中相应的带符号 16 位整数为负时,将 a 中的 16 位整数包装为无效,并返回结果。

_mm_sign_epi32ssse3

b 中相应的带符号 32 位整数为负时,对 a 中的包装 32 位整数求反,并返回结果。

_mm_sll_epi16sse2

count 左移的 a 中的包装的 16 位整数移位,同时将零移位。

_mm_sll_epi32sse2

count 左移的 a 中的包装的 32 位整数移位,同时将零移位。

_mm_sll_epi64sse2

count 左移的 a 中的包装的 64 位整数移位,同时将零移位。

_mm_slli_epi16sse2

a 中包装的 16 位整数左移 IMM8,同时将其移入零。

_mm_slli_epi32sse2

a 中包装的 32 位整数左移 IMM8,同时将其移入零。

_mm_slli_epi64sse2

a 中包装的 64 位整数左移 IMM8,同时将其移入零。

_mm_slli_si128sse2

a 左移 IMM8 个字节,同时移入零。

_mm_sllv_epi32avx2

a 中的包装的 32 位整数左移 count 中相应元素所指定的数量,同时将零移位,并返回结果。

_mm_sllv_epi64avx2

a 中的包装的 64 位整数左移 count 中相应元素所指定的数量,同时将零移位,并返回结果。

_mm_sqrt_pdsse2

返回一个新的 vector,它具有 a 中每个值的平方根。

_mm_sqrt_pssse

返回 a 中包装的单精度 (32-bit) 浮点元素的平方根。

_mm_sqrt_sdsse2

返回一个新的 vector,其中 a 的低端元素替换为下部元素 b 的平方根。

_mm_sqrt_sssse

返回 a 中第一个单精度 (32-bit) 浮点元素的平方根,其他元素保持不变。

_mm_sra_epi16sse2

将符号位移入时,将 a 中的包装的 16 位整数右移 count

_mm_sra_epi32sse2

将符号位移位时,将 a 中的包装的 32 位整数右移 count

_mm_srai_epi16sse2

a 中包装的 16 位整数右移 IMM8,同时移入符号位。

_mm_srai_epi32sse2

a 中包装的 32 位整数右移 IMM8,同时移入符号位。

_mm_srav_epi32avx2

a 中的32位整数向右移动,移动量由 count 中的相应元素指定,同时移入符号位。

_mm_srl_epi16sse2

a 中的包装的 16 位整数右移 count,同时将零移位。

_mm_srl_epi32sse2

a 中的包装的 32 位整数右移 count,同时将零移位。

_mm_srl_epi64sse2

a 中的包装的 64 位整数右移 count,同时将零移位。

_mm_srli_epi16sse2

a 中包装的 16 位整数右移 IMM8,同时将其移入零。

_mm_srli_epi32sse2

a 中包装的 32 位整数右移 IMM8,同时将其移入零。

_mm_srli_epi64sse2

a 中包装的 64 位整数右移 IMM8,同时将其移入零。

_mm_srli_si128sse2

a 右移 IMM8 个字节,同时移入零。

_mm_srlv_epi32avx2

a 中的包装的 32 位整数右移 count 中相应元素所指定的数量,同时将零移位,

_mm_srlv_epi64avx2

a 中的包装的 64 位整数右移 count 中相应元素所指定的数量,同时将零移位,

_mm_store1_pdsse2

将来自 a 的较低的双精度 (64-bit) 浮点元素存储到内存中的 2 个连续元素中。 mem_addr 必须对齐 可能会生成 16 字节边界或一般保护异常。

_mm_store1_pssse

a 的最低 32 位浮点数重复存储四次到 aligned 存储器中。

_mm_store_pdsse2

将来自 a 的 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。 mem_addr 必须在 16 字节边界上对齐,否则可能会产生一般保护异常。

_mm_store_pd1sse2

将来自 a 的较低的双精度 (64-bit) 浮点元素存储到内存中的 2 个连续元素中。 mem_addr 必须对齐 可能会生成 16 字节边界或一般保护异常。

_mm_store_pssse

将四个 32 位浮点数存储到 aligned 存储器中。

_mm_store_ps1sse

_mm_store1_ps 的别名

_mm_store_sdsse2

[2 x double] 的 128 位 vector 的低 64 位存储到内存位置。

_mm_store_si128sse2

将来自 a 的 128 位整数数据存储到内存中。

_mm_store_sssse

a 的最低 32 位浮点数存储到内存中。

_mm_storeh_pdsse2

[2 x double] 的 128 位 vector 的高 64 位存储到存储位置。

_mm_storel_epi64sse2

将低 64 位整数 a 存储到内存位置。

_mm_storel_pdsse2

[2 x double] 的 128 位 vector 的低 64 位存储到内存位置。

_mm_storer_pdsse2

a 中的 2 个双精度 (64-bit) 浮点元素以相反的顺序存储到内存中。 mem_addr 必须在 16 字节边界上对齐,否则可能会产生一般保护异常。

_mm_storer_pssse

以相反的顺序将四个 32 位浮点数存储到 aligned 存储器中。

_mm_storeu_pdsse2

将来自 a 的 128 位 (由 2 个包装的双精度 (64-bit) 浮点元素组成) 存储到内存中。

_mm_storeu_pssse

将四个 32 位浮点数存储到内存中。内存对齐没有任何限制。 对于对齐的内存,_mm_store_ps 可能更快。

_mm_storeu_si128sse2

将来自 a 的 128 位整数数据存储到内存中。

_mm_stream_pdsse2

[2 x double] 的 128 位浮点 vector 存储到 128 位对齐的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)。

_mm_stream_pssse

使用非临时内存提示将 a 存储到 mem_addr 的内存中。

_mm_stream_sdsse4a

a.0 的非临时存储到 p 中。

_mm_stream_si32sse2

将 32 位整数值存储在指定的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)。

_mm_stream_si128sse2

将 128 位整数 vector 存储到 128 位对齐的内存位置。 为了最大程度地减少缓存,数据被标记为非时间性的 (不太可能很快再次使用)。

_mm_stream_sssse4a

a.0 的非临时存储到 p 中。

_mm_sub_epi8sse2

a 中的包装的 8 位整数中减去 b 中的包装的 8 位整数。

_mm_sub_epi16sse2

a 中的包装的 16 位整数减去 b 中的包装的 16 位整数。

_mm_sub_epi32sse2

a 中的包装的 32 位整数中减去 b 中的包装的 32 位整数。

_mm_sub_epi64sse2

a 中的包装的 64 位整数中减去 b 中的包装的 64 位整数。

_mm_sub_pdsse2

a 中减去 b 中的包装的双精度 (64-bit) 浮点元素。

_mm_sub_pssse

减去 __m128 vectors。

_mm_sub_sdsse2

返回一个新的 vector,其中 a 的低端元素被 a 的低端元素减去 b 的低端元素所代替。

_mm_sub_sssse

a 减去 b 的第一个组件,从 a 复制其他组件。

_mm_subs_epi8sse2

使用饱和度从 a 的包装的 8 位整数减去 b 的包装的 8 位整数。

_mm_subs_epi16sse2

使用饱和度从 a 的包装的 16 位整数减去 b 的包装的 16 位整数。

_mm_subs_epu8sse2

使用饱和度从 a 中的包装无符号 8 位整数减去 b 中的包装无符号 8 位整数。

_mm_subs_epu16sse2

使用饱和度从 a 中的包装的无符号 16 位整数减去 b 中的包装的无符号 16 位整数。

_mm_test_all_onessse4.1

测试 a 128 位整数 vector 中的指定位是否全部为 1。

_mm_test_all_zerossse4.1

测试 128 位整数 vector 中的指定位是否全部为零。

_mm_test_mix_ones_zerossse4.1

测试 128 位整数 vector 中的指定位是否既不是全零也不是全 1。

_mm_testc_pdavx

计算 ab 中 128 位 (表示双精度 (64-bit) 浮点元素) 的按位与,产生中间 128 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 CF 值。

_mm_testc_psavx

计算 ab 中 128 位 (代表单精度 (32-bit) 浮点元素) 的 128 位按位与,生成中间 128 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 CF 值。

_mm_testc_si128sse4.1

测试 128 位整数 vector 中的指定位是否全部为 1。

_mm_testnzc_pdavx

计算 ab 中 128 位 (表示双精度 (64-bit) 浮点元素) 的按位与,产生中间 128 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 如果 ZFCF 的值均为零,则返回 1,否则返回 0。

_mm_testnzc_psavx

计算 ab 中 128 位 (代表单精度 (32-bit) 浮点元素) 的 128 位按位与,生成中间 128 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 如果 ZFCF 的值均为零,则返回 1,否则返回 0。

_mm_testnzc_si128sse4.1

测试 128 位整数 vector 中的指定位是否既不是全零也不是全 1。

_mm_testz_pdavx

计算 ab 中 128 位 (表示双精度 (64-bit) 浮点元素) 的按位与,产生中间 128 位值,如果中间值中每个 64 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位 NOT,然后与 b 进行与运算,得到一个中间值,如果中间值中每个 64 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 ZF 值。

_mm_testz_psavx

计算 ab 中 128 位 (代表单精度 (32-bit) 浮点元素) 的 128 位按位与,生成中间 128 位值,如果中间值中每个 32 位元素的符号位都将 ZF 设置为 1 为零,否则将 ZF 设置为 0。 计算 a 的按位非,然后与 b 进行与运算,产生一个中间值,如果中间值中每个 32 位元素的符号位为零,则将 CF 设置为 1,否则将 CF 设置为 0。 返回 ZF 值。

_mm_testz_si128sse4.1

测试 128 位整数 vector 中的指定位是否全部为零。

_mm_tzcnt_32bmi1

计算尾随的最低有效零位的数量。

_mm_ucomieq_sdsse2

比较 ab 的下部元素是否相等。

_mm_ucomieq_sssse

比较 ab 的低位的两个 32 位浮点数。 如果相等则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

_mm_ucomige_sdsse2

比较 ab 的下限元素是否大于等于。

_mm_ucomige_sssse

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值大于或等于 b 中的值,则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

_mm_ucomigt_sdsse2

比较 ab 的下限元素是否大于。

_mm_ucomigt_sssse

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值大于 b 中的值,则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

_mm_ucomile_sdsse2

比较 ab 的下限元素是否等于或小于等于。

_mm_ucomile_sssse

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值小于或等于 b 中的值,则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

_mm_ucomilt_sdsse2

比较 ab 的下限元素小于。

_mm_ucomilt_sssse

比较 ab 的低位的两个 32 位浮点数。 如果 a 中的值小于 b 中的值,则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

_mm_ucomineq_sdsse2

比较 ab 的下部元素是否相等。

_mm_ucomineq_sssse

比较 ab 的低位的两个 32 位浮点数。 如果它们不相等,则返回 1,否则返回 0。 如果任一参数是安静的 NaN,则该指令不会发出异常信号。

_mm_undefined_pdsse2

返回带有未定义元素的 __m128d 类型的 vector。

_mm_undefined_pssse

返回类型为 __m128 的 vector,其中包含未定义的元素。

_mm_undefined_si128sse2

返回带有未定义元素的 __m128i 类型的 vector。

_mm_unpackhi_epi8sse2

ab 的高半部分解包并交织 8 位整数。

_mm_unpackhi_epi16sse2

ab 的高半部分解包并交织 16 位整数。

_mm_unpackhi_epi32sse2

ab 的高半部分解包并交织 32 位整数。

_mm_unpackhi_epi64sse2

ab 的高半部分解包并交织 64 位整数。

_mm_unpackhi_pdsse2

所得的 __m128d 元素由两个 __m128d 交错输入元素的低阶值组成,即:

_mm_unpackhi_pssse

ab 的上半部分解包并交织单精度 (32-bit) 浮点元素。

_mm_unpacklo_epi8sse2

ab 的下半部分解包并交织 8 位整数。

_mm_unpacklo_epi16sse2

ab 的下半部分解包并交织 16 位整数。

_mm_unpacklo_epi32sse2

ab 的下半部分解包并交织 32 位整数。

_mm_unpacklo_epi64sse2

ab 的下半部分解包并交织 64 位整数。

_mm_unpacklo_pdsse2

所得的 __m128d 元素由两个 __m128d 交错输入元素的高阶值组成,即:

_mm_unpacklo_pssse

ab 的下半部分解包并交织单精度 (32-bit) 浮点元素。

_mm_xor_pdsse2

计算 ab 的按位或。

_mm_xor_pssse

包装的单精度 (32-bit) 浮点元素的按位异或。

_mm_xor_si128sse2

计算 ab 中 128 位 (表示整数数据) 的按位 XOR。

_mulx_u32bmi2

无符号乘法,且不影响标志。

_pdep_u32bmi2

a 的连续低阶位分散到 mask 指定的位置处的结果中。

_pext_u32bmi2

mask 指定的 x 的位收集到结果的连续低阶位位置。

_popcnt32popcnt

计算设置的位。

_rdrand16_steprdrand

读取硬件生成的 16 位随机值,并将结果存储在 val 中。 如果生成随机值,则返回 1,否则返回 0。

_rdrand32_steprdrand

读取硬件生成的 32 位随机值,并将结果存储在 val 中。 如果生成随机值,则返回 1,否则返回 0。

_rdseed16_steprdseed

读取符合 NIST SP800-90B 和 SP800-90C 的 16 位随机值,并存储在 val 中。 如果生成随机值,则返回 1,否则返回 0。

_rdseed32_steprdseed

读取符合 NIST SP800-90B 和 SP800-90C 的 32 位随机值,并存储在 val 中。 如果生成随机值,则返回 1,否则返回 0。

_rdtsc

读取处理器时间戳计数器的当前值。

_subborrow_u32

将无符号的 32 位整数 ab 与无符号的 8 位进位 c_in (进位或溢出标志) 相加,并将无符号的 32 位结果存储在 out 中,并返回进位 (进位或溢出标志)。

_t1mskc_u32tbm

清除 x 的最低有效零以下的所有位,并设置所有其他位。

_t1mskc_u64tbm

清除 x 的最低有效零以下的所有位,并设置所有其他位。

_tzcnt_u32bmi1

计算尾随的最低有效零位的数量。

_tzmsk_u32tbm

将所有位设置为低于 x 的最低有效位,并清除所有其他位。

_tzmsk_u64tbm

将所有位设置为低于 x 的最低有效位,并清除所有其他位。

_xgetbvxsave

读取 xcr_no 中指定的扩展控制寄存器 XCR 的内容。

_xrstorxsave

使用 mem_addr 内存中存储的状态信息执行已启用处理器状态的全部或部分还原。

_xrstorsxsave,xsaves

使用 mem_addr 内存中存储的状态信息执行已启用处理器状态的全部或部分还原。

_xsavexsave

将已启用的处理器状态全部或部分保存到 mem_addr 的内存中。

_xsavecxsave,xsavec

将已启用的处理器状态全部或部分保存到 mem_addr 的内存中。

_xsaveoptxsave,xsaveopt

将已启用的处理器状态全部或部分保存到 mem_addr 的内存中。

_xsavesxsave,xsaves

将启用的处理器状态全部或部分保存到以下位置的内存中: mem_addr

_xsetbvxsave

val 复制 64 位到 a 指定的扩展控制寄存器 (XCR)。

Type Definitions

_MM_CMPINT_ENUMExperimental

_MM_CMPINT_ENUM 类型用于在 AVX-512 内联函数中指定比较操作。

_MM_MANTISSA_NORM_ENUMExperimental

MM_MANTISSA_NORM_ENUM 类型用于指定 AVX-512 内联函数中的尾数归一化操作。

_MM_MANTISSA_SIGN_ENUMExperimental

MM_MANTISSA_SIGN_ENUM 类型用于指定 AVX-512 内联函数中的尾数签名操作。

_MM_PERM_ENUMExperimental

MM_PERM_ENUM 类型用于在 AVX-512 内联函数中指定重排操作。

__mmask8Experimental

AVX-512 内联函数中使用的 __mmask8 类型,一个 8 位整数

__mmask16Experimental

AVX-512 内联函数中使用的 __mmask16 类型,一个 16 位整数

__mmask32Experimental

AVX-512 内联函数中使用的 __mmask32 类型,一个 32 位整数

__mmask64Experimental

AVX-512 内联函数中使用的 __mmask64 类型,一个 64 位整数