test_problems/kernel_assembly.S - RealtimeRoboticsGroup/test - Gitiles

 #if defined(OS_LINUX) | defined(OS_MAC)

 //#define STACKSIZE 96
 #define STACKSIZE 64
 #define ARG1  %rdi
 #define ARG2  %rsi
 #define ARG3  %rdx
 #define ARG4  %rcx
 #define ARG5  %r8
 #define ARG6  %r9
 #define ARG7  STACKSIZE +  8(%rsp)
 #define ARG8  STACKSIZE + 16(%rsp)
 #define ARG9  STACKSIZE + 24(%rsp)
 #define ARG10 STACKSIZE + 32(%rsp)
 #define ARG11 STACKSIZE + 40(%rsp)
 #define ARG12 STACKSIZE + 48(%rsp)
 #define ARG13 STACKSIZE + 56(%rsp)
 #define ARG14 STACKSIZE + 64(%rsp)
 #define ARG15 STACKSIZE + 72(%rsp)
 #define ARG16 STACKSIZE + 80(%rsp)
 #define ARG17 STACKSIZE + 88(%rsp)
 #define ARG18 STACKSIZE + 96(%rsp)

 #elif defined(OS_WINDOWS)

 #define STACKSIZE 256
 #define ARG1  %rcx
 #define ARG2  %rdx
 #define ARG3  %r8
 #define ARG4  %r9
 #define ARG5  STACKSIZE + 40(%rsp)
 #define ARG6  STACKSIZE + 48(%rsp)
 #define ARG7  STACKSIZE + 56(%rsp)
 #define ARG8  STACKSIZE + 64(%rsp)
 #define ARG9  STACKSIZE + 72(%rsp)
 #define ARG10 STACKSIZE + 80(%rsp)
 #define ARG11 STACKSIZE + 88(%rsp)
 #define ARG12 STACKSIZE + 96(%rsp)
 #define ARG13 STACKSIZE + 104(%rsp)
 #define ARG14 STACKSIZE + 112(%rsp)
 #define ARG15 STACKSIZE + 120(%rsp)
 #define ARG16 STACKSIZE + 128(%rsp)
 #define ARG17 STACKSIZE + 136(%rsp)
 #define ARG18 STACKSIZE + 144(%rsp)

 #else

 #error wrong OS

 #endif


 #if defined(OS_LINUX) | defined(OS_WINDOWS)
 	.text
 #elif defined(OS_MAC)
 	.section	__TEXT,__text,regular,pure_instructions
 #endif


 // common inner routine with file scope
 //
 // input arguments:
 // r10d   <- k
 // r11   <- A
 // r12   <- B
 // ymm0  <- [d00 d11 d22 d33]
 // ymm1  <- [d01 d10 d23 d32]
 // ymm2  <- [d03 d12 d21 d30]
 // ymm3  <- [d02 d13 d20 d31]
 // ymm8  <- dirty
 // ymm9  <- dirty
 // ymm10 <- dirty
 // ymm11 <- dirty
 // ymm12 <- dirty
 // ymm13 <- dirty
 // ymm14 <- dirty
 // ymm15 <- dirty

 //
 // output arguments:
 // r10d  <- 0
 // r11   <- A+4*k*sizeof(double)
 // r12   <- B+4*k*sizeof(double)
 // ymm0  <- [d00 d11 d22 d33]
 // ymm1  <- [d01 d10 d23 d32]
 // ymm2  <- [d03 d12 d21 d30]
 // ymm3  <- [d02 d13 d20 d31]
 // ymm8  <- dirty
 // ymm9  <- dirty
 // ymm10 <- dirty
 // ymm11 <- dirty
 // ymm12 <- dirty
 // ymm13 <- dirty
 // ymm14 <- dirty
 // ymm15 <- dirty

 #if MACRO_LEVEL>=2
 	.macro INNER_KERNEL_DGEMM_ADD_NT_4X4_LIB4
 #else
 	.p2align 4,,15
 #if defined(OS_LINUX)
 	.type inner_kernel_dgemm_add_nt_4x4_lib4, @function
 inner_kernel_dgemm_add_nt_4x4_lib4:
 #elif defined(OS_MAC)
 _inner_kernel_dgemm_add_nt_4x4_lib4:
 #elif defined(OS_WINDOWS)
 	.def inner_kernel_dgemm_add_nt_4x4_lib4; .scl 2; .type 32; .endef
 inner_kernel_dgemm_add_nt_4x4_lib4:
 #endif
 #endif

 	cmpl	$0, %r10d
 	jle		2f // return

 	// prefetch
 	vmovapd 0(%r11), %ymm8 // A0[0]
 	vmovapd 0(%r12), %ymm12 // B[0]

 	cmpl	$4, %r10d
 	jle		0f // consider clean-up loop

 	// main loop
 	.p2align 3
 1: // main loop

 	// unroll 0
 	vmovapd 32(%r12), %ymm13 // B[4]
 	vmulpd	%ymm8, %ymm12, %ymm15
 	vaddpd	%ymm0, %ymm15, %ymm0
 	vshufpd $0x5, %ymm12, %ymm12, %ymm14

 	vperm2f128 $0x1, %ymm14, %ymm14, %ymm12
 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm1, %ymm15, %ymm1
 	vmovapd 32(%r11), %ymm10 // A0[4]

 	vmulpd	%ymm8, %ymm12, %ymm15
 	vaddpd	%ymm3, %ymm15, %ymm3
 	vshufpd $0x5, %ymm12, %ymm12, %ymm14

 	subl	$4, %r10d
 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm2, %ymm15, %ymm2

 	// unroll 1
 	vmovapd 64(%r12), %ymm12 // B[8]
 	vmulpd	%ymm10, %ymm13, %ymm15
 	vaddpd	%ymm0, %ymm15, %ymm0
 	vshufpd $0x5, %ymm13, %ymm13, %ymm14

 	vperm2f128 $0x1, %ymm14, %ymm14, %ymm13
 	vmulpd	%ymm10, %ymm14, %ymm15
 	vaddpd	%ymm1, %ymm15, %ymm1
 	vmovapd 64(%r11), %ymm8 // A0[8]

 	vmulpd	%ymm10, %ymm13, %ymm15
 	vaddpd	%ymm3, %ymm15, %ymm3
 	vshufpd $0x5, %ymm13, %ymm13, %ymm14

 	vmulpd	%ymm10, %ymm14, %ymm15
 	vaddpd	%ymm2, %ymm15, %ymm2

 	// unroll 2
 	vmovapd 96(%r12), %ymm13 // B[12]
 	vmulpd	%ymm8, %ymm12, %ymm15
 	vaddpd	%ymm0, %ymm15, %ymm0
 	vshufpd $0x5, %ymm12, %ymm12, %ymm14

 	vperm2f128 $0x1, %ymm14, %ymm14, %ymm12
 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm1, %ymm15, %ymm1
 	vmovapd 96(%r11), %ymm10 // A0[12]

 	vmulpd	%ymm8, %ymm12, %ymm15
 	vaddpd	%ymm3, %ymm15, %ymm3
 	vshufpd $0x5, %ymm12, %ymm12, %ymm14
 	addq	$128, %r12

 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm2, %ymm15, %ymm2
 	addq	$128, %r11


 	// unroll 3
 	vmovapd 0(%r12), %ymm12 // B[0]
 	vmulpd	%ymm10, %ymm13, %ymm15
 	vaddpd	%ymm0, %ymm15, %ymm0
 	vshufpd $0x5, %ymm13, %ymm13, %ymm14

 	vperm2f128 $0x1, %ymm14, %ymm14, %ymm13
 	vmulpd	%ymm10, %ymm14, %ymm15
 	vaddpd	%ymm1, %ymm15, %ymm1
 	vmovapd 0(%r11), %ymm8 // A0[0]

 	vmulpd	%ymm10, %ymm13, %ymm15
 	vaddpd	%ymm3, %ymm15, %ymm3
 	vshufpd $0x5, %ymm13, %ymm13, %ymm14

 	vmulpd	%ymm10, %ymm14, %ymm15
 	vaddpd	%ymm2, %ymm15, %ymm2

 	cmpl	$4, %r10d
 	jg		1b // main loop


 0: // consider clean4-up

 	cmpl	$3, %r10d
 	jle		4f // clean1

 	// unroll 0
 	vmovapd 32(%r12), %ymm13 // B[4]
 	vmulpd	%ymm8, %ymm12, %ymm15
 	vaddpd	%ymm0, %ymm15, %ymm0
 	vshufpd $0x5, %ymm12, %ymm12, %ymm14

 	vperm2f128 $0x1, %ymm14, %ymm14, %ymm12
 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm1, %ymm15, %ymm1
 	vmovapd 32(%r11), %ymm10 // A0[4]

 	vmulpd	%ymm8, %ymm12, %ymm15
 	vaddpd	%ymm3, %ymm15, %ymm3
 	vshufpd $0x5, %ymm12, %ymm12, %ymm14

 	subl	$4, %r10d
 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm2, %ymm15, %ymm2

 	// unroll 1
 	vmovapd 64(%r12), %ymm12 // B[8]
 	vmulpd	%ymm10, %ymm13, %ymm15
 	vaddpd	%ymm0, %ymm15, %ymm0
 	vshufpd $0x5, %ymm13, %ymm13, %ymm14

 	vperm2f128 $0x1, %ymm14, %ymm14, %ymm13
 	vmulpd	%ymm10, %ymm14, %ymm15
 	vaddpd	%ymm1, %ymm15, %ymm1
 	vmovapd 64(%r11), %ymm8 // A0[8]

 	vmulpd	%ymm10, %ymm13, %ymm15
 	vaddpd	%ymm3, %ymm15, %ymm3
 	vshufpd $0x5, %ymm13, %ymm13, %ymm14

 	vmulpd	%ymm10, %ymm14, %ymm15
 	vaddpd	%ymm2, %ymm15, %ymm2

 	// unroll 2
 	vmovapd 96(%r12), %ymm13 // B[12]
 	vmulpd	%ymm8, %ymm12, %ymm15
 	vaddpd	%ymm0, %ymm15, %ymm0
 	vshufpd $0x5, %ymm12, %ymm12, %ymm14

 	vperm2f128 $0x1, %ymm14, %ymm14, %ymm12
 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm1, %ymm15, %ymm1
 	vmovapd 96(%r11), %ymm10 // A0[12]

 	vmulpd	%ymm8, %ymm12, %ymm15
 	vaddpd	%ymm3, %ymm15, %ymm3
 	vshufpd $0x5, %ymm12, %ymm12, %ymm14
 	addq	$128, %r12

 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm2, %ymm15, %ymm2
 	addq	$128, %r11


 	// unroll 3
 //	vmovapd 0(%r12), %ymm12 // B[0]
 	vmulpd	%ymm10, %ymm13, %ymm15
 	vaddpd	%ymm0, %ymm15, %ymm0
 	vshufpd $0x5, %ymm13, %ymm13, %ymm14

 	vperm2f128 $0x1, %ymm14, %ymm14, %ymm13
 	vmulpd	%ymm10, %ymm14, %ymm15
 	vaddpd	%ymm1, %ymm15, %ymm1
 //	vmovapd 0(%r11), %ymm8 // A0[0]

 	vmulpd	%ymm10, %ymm13, %ymm15
 	vaddpd	%ymm3, %ymm15, %ymm3
 	vshufpd $0x5, %ymm13, %ymm13, %ymm14

 	vmulpd	%ymm10, %ymm14, %ymm15
 	vaddpd	%ymm2, %ymm15, %ymm2


 //	cmpl	$3, %r10d
 	jmp		2f // return


 4: // consider clean1-up loop

 	cmpl	$0, %r10d
 	jle		2f // return

 	// clean-up loop
 3: // clean up loop

 	vmovapd 0(%r12), %ymm12 // B[0]
 	vmovapd 0(%r11), %ymm8 // A0[0]
 	vmulpd	%ymm8, %ymm12, %ymm15
 	vaddpd	%ymm0, %ymm15, %ymm0
 	addq	$32, %r11

 	vshufpd $0x5, %ymm12, %ymm12, %ymm14
 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm1, %ymm15, %ymm1
 	addq	$32, %r12

 	vperm2f128 $0x1, %ymm14, %ymm14, %ymm14
 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm3, %ymm15, %ymm3
 	subl	$1, %r10d

 	vshufpd $0x5, %ymm14, %ymm14, %ymm14
 	vmulpd	%ymm8, %ymm14, %ymm15
 	vaddpd	%ymm2, %ymm15, %ymm2

 	cmpl	$0, %r10d
 	jg		3b // clean up loop


 2: // return

 #if MACRO_LEVEL>=2
 	.endm
 #else
 	ret

 #if defined(OS_LINUX)
 	.size	inner_kernel_dgemm_add_nt_4x4_lib4, .-inner_kernel_dgemm_add_nt_4x4_lib4
 #endif
 #endif


 // common inner routine with file scope
 //
 // blend for generic alpha and beta
 //
 // input arguments:
 // r10   <- alpha
 // r11   <- beta
 // r12   <- C
 // ymm0 <- [d00 d11 d22 d33]
 // ymm1 <- [d01 d10 d23 d32]
 // ymm2 <- [d03 d12 d21 d30]
 // ymm3 <- [d02 d13 d20 d31]
 // ymm8  <- dirty
 // ymm9  <- dirty
 // ymm10 <- dirty
 // ymm11 <- dirty
 // ymm15 <- dirty
 //
 // output arguments:
 // r10   <- alpha
 // r11   <- beta
 // r12   <- C
 // ymm0 <- [d00 d10 d20 d30]
 // ymm1 <- [d01 d11 d21 d31]
 // ymm2 <- [d02 d12 d22 d32]
 // ymm3 <- [d03 d13 d23 d33]
 // ymm8  <- dirty
 // ymm9  <- dirty
 // ymm10 <- dirty
 // ymm11 <- dirty
 // ymm15 <- dirty

 #if MACRO_LEVEL>=1
 	.macro INNER_BLEND_SCALE_AB_4X4_LIB4
 #else
 	.p2align 4,,15
 #if defined(OS_LINUX)
 	.type inner_blend_scale_ab_4x4_lib4, @function
 inner_blend_scale_ab_4x4_lib4:
 #elif defined(OS_MAC)
 _inner_blend_scale_ab_4x4_lib4:
 #elif defined(OS_WINDOWS)
 	.def inner_blend_scale_ab_4x4_lib4; .scl 2; .type 32; .endef
 inner_blend_scale_ab_4x4_lib4:
 #endif
 #endif

 	// alpha
 	vbroadcastsd	0(%r10), %ymm15

 	vblendpd	$0xa, %ymm1, %ymm0, %ymm8
 	vblendpd	$0x5, %ymm1, %ymm0, %ymm9
 	vblendpd	$0xa, %ymm3, %ymm2, %ymm10
 	vblendpd	$0x5, %ymm3, %ymm2, %ymm11

 	vblendpd	$0xc, %ymm10, %ymm8, %ymm0
 	vblendpd	$0x3, %ymm10, %ymm8, %ymm2
 	vblendpd	$0xc, %ymm11, %ymm9, %ymm1
 	vblendpd	$0x3, %ymm11, %ymm9, %ymm3

 	vmulpd		%ymm0, %ymm15, %ymm0
 	vmulpd		%ymm1, %ymm15, %ymm1
 	vmulpd		%ymm2, %ymm15, %ymm2
 	vmulpd		%ymm3, %ymm15, %ymm3

 	// beta
 	vbroadcastsd	0(%r11), %ymm14

 	vxorpd		%ymm15, %ymm15, %ymm15 // 0.0

 	vucomisd	%xmm15, %xmm14 // beta==0.0 ?
 	je			0f // end

 	vmovupd		0(%r12), %ymm15
 	vmulpd		%ymm15, %ymm14, %ymm15
 	vaddpd		%ymm0, %ymm15, %ymm0
 	vmovupd		32(%r12), %ymm15
 	vmulpd		%ymm15, %ymm14, %ymm15
 	vaddpd		%ymm1, %ymm15, %ymm1
 	vmovupd		64(%r12), %ymm15
 	vmulpd		%ymm15, %ymm14, %ymm15
 	vaddpd		%ymm2, %ymm15, %ymm2
 	vmovupd		96(%r12), %ymm15
 	vmulpd		%ymm15, %ymm14, %ymm15
 	vaddpd		%ymm3, %ymm15, %ymm3

 0:

 #if MACRO_LEVEL>=1
 	.endm
 #else
 	ret

 #if defined(OS_LINUX)
 	.size	inner_blend_scale_ab_4x4_lib4, .-inner_blend_scale_ab_4x4_lib4
 #endif
 #endif


 // common inner routine with file scope
 //
 // store n
 //
 // input arguments:
 // r10  <- D
 // ymm0 <- [d00 d11 d22 d33]
 // ymm1 <- [d01 d10 d23 d32]
 // ymm2 <- [d03 d12 d21 d30]
 // ymm3 <- [d02 d13 d20 d31]
 //
 // output arguments:
 // r10  <- D
 // ymm0 <- [d00 d10 d20 d30]
 // ymm1 <- [d01 d11 d21 d31]
 // ymm2 <- [d02 d12 d22 d32]
 // ymm3 <- [d03 d13 d23 d33]

 #if MACRO_LEVEL>=1
 	.macro INNER_STORE_4X4_LIB4
 #else
 	.p2align 4,,15
 #if defined(OS_LINUX)
 	.type inner_store_4x4_lib4, @function
 inner_store_4x4_lib4:
 #elif defined(OS_MAC)
 _inner_store_4x4_lib4:
 #elif defined(OS_WINDOWS)
 	.def inner_store_4x4_lib4; .scl 2; .type 32; .endef
 inner_store_4x4_lib4:
 #endif
 #endif

 	vmovupd %ymm0,  0(%r10)
 	vmovupd %ymm1, 32(%r10)
 	vmovupd %ymm2, 64(%r10)
 	vmovupd %ymm3, 96(%r10)

 #if MACRO_LEVEL>=1
 	.endm
 #else
 	ret

 #if defined(OS_LINUX)
 	.size	inner_store_4x4_lib4, .-inner_store_4x4_lib4
 #endif
 #endif


 //                               1      2              3          4          5             6          7
 // void kernel_dgemm_nt_4x4_lib4(int k, double *alpha, double *A, double *B, double *beta, double *C, double *D);

 	.p2align 4,,15
 #if defined(OS_LINUX) | defined(OS_WINDOWS)
 	.globl kernel_dgemm_nt_4x4_lib4_test
 #if defined(OS_LINUX)
 	.type kernel_dgemm_nt_4x4_lib4_test, @function
 #else // OS_WINDOWS
 	.def kernel_dgemm_nt_4x4_lib4_test; .scl 2; .type 32; .endef
 #endif
 kernel_dgemm_nt_4x4_lib4_test:
 #elif defined(OS_MAC)
 	.globl _kernel_dgemm_nt_4x4_lib4_test
 _kernel_dgemm_nt_4x4_lib4_test:
 #endif

 	// prologue

 	subq	$STACKSIZE, %rsp
 	movq	%rbx,   (%rsp)
 	movq	%rbp,  8(%rsp)
 	movq	%r12, 16(%rsp)
 	movq	%r13, 24(%rsp)
 	movq	%r14, 32(%rsp)
 	movq	%r15, 40(%rsp)
 #if defined(OS_WINDOWS)
 	movq	%rdi, 48(%rsp)
 	movq	%rsi, 56(%rsp)
 	vmovups	%xmm6, 64(%rsp)
 	vmovups	%xmm7, 80(%rsp)
 	vmovups	%xmm8, 96(%rsp)
 	vmovups	%xmm9, 112(%rsp)
 	vmovups	%xmm10, 128(%rsp)
 	vmovups	%xmm11, 144(%rsp)
 	vmovups	%xmm12, 160(%rsp)
 	vmovups	%xmm13, 176(%rsp)
 	vmovups	%xmm14, 192(%rsp)
 	vmovups	%xmm15, 208(%rsp)
 #endif

 	vzeroupper


 	// zero accumulation registers

 	vxorpd	%ymm0, %ymm0, %ymm0
 	vmovapd	%ymm0, %ymm1
 	vmovapd	%ymm0, %ymm2
 	vmovapd	%ymm0, %ymm3


 	// call inner dgemm kernel nt

 	movq	ARG1, %r10 // k
 	movq	ARG3, %r11 // A
 	movq	ARG4, %r12 // B

 #if MACRO_LEVEL>=2
 	INNER_KERNEL_DGEMM_ADD_NT_4X4_LIB4
 #else
 #if defined(OS_LINUX) | defined(OS_WINDOWS)
 	call inner_kernel_dgemm_add_nt_4x4_lib4
 #elif defined(OS_MAC)
 	callq _inner_kernel_dgemm_add_nt_4x4_lib4
 #endif
 #endif


 	// call inner blend scale

 	movq	ARG2, %r10 // alpha
 	movq	ARG5, %r11 // beta
 	movq	ARG6, %r12 // C

 #if MACRO_LEVEL>=1
 	INNER_BLEND_SCALE_AB_4X4_LIB4
 #else
 #if defined(OS_LINUX) | defined(OS_WINDOWS)
 	call inner_blend_scale_ab_4x4_lib4
 #elif defined(OS_MAC)
 	callq _inner_blend_scale_ab_4x4_lib4
 #endif
 #endif


 	// store n

 	movq	ARG7, %r10 // D

 #if MACRO_LEVEL>=1
 	INNER_STORE_4X4_LIB4
 #else
 #if defined(OS_LINUX) | defined(OS_WINDOWS)
 	call inner_store_4x4_lib4
 #elif defined(OS_MAC)
 	callq _inner_store_4x4_lib4
 #endif
 #endif

 //	movq	ARG6, %rax
 //	movq	STACKSIZE + 48(%rsp), %rax


 	// epilogue

 	vzeroupper

 	movq	  (%rsp), %rbx
 	movq	 8(%rsp), %rbp
 	movq	16(%rsp), %r12
 	movq	24(%rsp), %r13
 	movq	32(%rsp), %r14
 	movq	40(%rsp), %r15
 #if defined(OS_WINDOWS)
 	movq	48(%rsp), %rdi
 	movq	56(%rsp), %rsi
 	vmovups	64(%rsp), %xmm6
 	vmovups	80(%rsp), %xmm7
 	vmovups	96(%rsp), %xmm8
 	vmovups	112(%rsp), %xmm9
 	vmovups	128(%rsp), %xmm10
 	vmovups	144(%rsp), %xmm11
 	vmovups	160(%rsp), %xmm12
 	vmovups	176(%rsp), %xmm13
 	vmovups	192(%rsp), %xmm14
 	vmovups	208(%rsp), %xmm15
 #endif
 	addq	$STACKSIZE, %rsp


 	ret

 #if defined(OS_LINUX)
 	.size	kernel_dgemm_nt_4x4_lib4_test, .-kernel_dgemm_nt_4x4_lib4_test
 #endif
	#if defined(OS_LINUX) \| defined(OS_MAC)

	//#define STACKSIZE 96
	#define STACKSIZE 64
	#define ARG1 %rdi
	#define ARG2 %rsi
	#define ARG3 %rdx
	#define ARG4 %rcx
	#define ARG5 %r8
	#define ARG6 %r9
	#define ARG7 STACKSIZE + 8(%rsp)
	#define ARG8 STACKSIZE + 16(%rsp)
	#define ARG9 STACKSIZE + 24(%rsp)
	#define ARG10 STACKSIZE + 32(%rsp)
	#define ARG11 STACKSIZE + 40(%rsp)
	#define ARG12 STACKSIZE + 48(%rsp)
	#define ARG13 STACKSIZE + 56(%rsp)
	#define ARG14 STACKSIZE + 64(%rsp)
	#define ARG15 STACKSIZE + 72(%rsp)
	#define ARG16 STACKSIZE + 80(%rsp)
	#define ARG17 STACKSIZE + 88(%rsp)
	#define ARG18 STACKSIZE + 96(%rsp)

	#elif defined(OS_WINDOWS)

	#define STACKSIZE 256
	#define ARG1 %rcx
	#define ARG2 %rdx
	#define ARG3 %r8
	#define ARG4 %r9
	#define ARG5 STACKSIZE + 40(%rsp)
	#define ARG6 STACKSIZE + 48(%rsp)
	#define ARG7 STACKSIZE + 56(%rsp)
	#define ARG8 STACKSIZE + 64(%rsp)
	#define ARG9 STACKSIZE + 72(%rsp)
	#define ARG10 STACKSIZE + 80(%rsp)
	#define ARG11 STACKSIZE + 88(%rsp)
	#define ARG12 STACKSIZE + 96(%rsp)
	#define ARG13 STACKSIZE + 104(%rsp)
	#define ARG14 STACKSIZE + 112(%rsp)
	#define ARG15 STACKSIZE + 120(%rsp)
	#define ARG16 STACKSIZE + 128(%rsp)
	#define ARG17 STACKSIZE + 136(%rsp)
	#define ARG18 STACKSIZE + 144(%rsp)

	#else

	#error wrong OS

	#endif



	#if defined(OS_LINUX) \| defined(OS_WINDOWS)
	.text
	#elif defined(OS_MAC)
	.section __TEXT,__text,regular,pure_instructions
	#endif



	// common inner routine with file scope
	//
	// input arguments:
	// r10d <- k
	// r11 <- A
	// r12 <- B
	// ymm0 <- [d00 d11 d22 d33]
	// ymm1 <- [d01 d10 d23 d32]
	// ymm2 <- [d03 d12 d21 d30]
	// ymm3 <- [d02 d13 d20 d31]
	// ymm8 <- dirty
	// ymm9 <- dirty
	// ymm10 <- dirty
	// ymm11 <- dirty
	// ymm12 <- dirty
	// ymm13 <- dirty
	// ymm14 <- dirty
	// ymm15 <- dirty

	//
	// output arguments:
	// r10d <- 0
	// r11 <- A+4ksizeof(double)
	// r12 <- B+4ksizeof(double)
	// ymm0 <- [d00 d11 d22 d33]
	// ymm1 <- [d01 d10 d23 d32]
	// ymm2 <- [d03 d12 d21 d30]
	// ymm3 <- [d02 d13 d20 d31]
	// ymm8 <- dirty
	// ymm9 <- dirty
	// ymm10 <- dirty
	// ymm11 <- dirty
	// ymm12 <- dirty
	// ymm13 <- dirty
	// ymm14 <- dirty
	// ymm15 <- dirty

	#if MACRO_LEVEL>=2
	.macro INNER_KERNEL_DGEMM_ADD_NT_4X4_LIB4
	#else
	.p2align 4,,15
	#if defined(OS_LINUX)
	.type inner_kernel_dgemm_add_nt_4x4_lib4, @function
	inner_kernel_dgemm_add_nt_4x4_lib4:
	#elif defined(OS_MAC)
	_inner_kernel_dgemm_add_nt_4x4_lib4:
	#elif defined(OS_WINDOWS)
	.def inner_kernel_dgemm_add_nt_4x4_lib4; .scl 2; .type 32; .endef
	inner_kernel_dgemm_add_nt_4x4_lib4:
	#endif
	#endif

	cmpl $0, %r10d
	jle 2f // return

	// prefetch
	vmovapd 0(%r11), %ymm8 // A0[0]
	vmovapd 0(%r12), %ymm12 // B[0]

	cmpl $4, %r10d
	jle 0f // consider clean-up loop

	// main loop
	.p2align 3
	1: // main loop

	// unroll 0
	vmovapd 32(%r12), %ymm13 // B[4]
	vmulpd %ymm8, %ymm12, %ymm15
	vaddpd %ymm0, %ymm15, %ymm0
	vshufpd $0x5, %ymm12, %ymm12, %ymm14

	vperm2f128 $0x1, %ymm14, %ymm14, %ymm12
	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm1, %ymm15, %ymm1
	vmovapd 32(%r11), %ymm10 // A0[4]

	vmulpd %ymm8, %ymm12, %ymm15
	vaddpd %ymm3, %ymm15, %ymm3
	vshufpd $0x5, %ymm12, %ymm12, %ymm14

	subl $4, %r10d
	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm2, %ymm15, %ymm2

	// unroll 1
	vmovapd 64(%r12), %ymm12 // B[8]
	vmulpd %ymm10, %ymm13, %ymm15
	vaddpd %ymm0, %ymm15, %ymm0
	vshufpd $0x5, %ymm13, %ymm13, %ymm14

	vperm2f128 $0x1, %ymm14, %ymm14, %ymm13
	vmulpd %ymm10, %ymm14, %ymm15
	vaddpd %ymm1, %ymm15, %ymm1
	vmovapd 64(%r11), %ymm8 // A0[8]

	vmulpd %ymm10, %ymm13, %ymm15
	vaddpd %ymm3, %ymm15, %ymm3
	vshufpd $0x5, %ymm13, %ymm13, %ymm14

	vmulpd %ymm10, %ymm14, %ymm15
	vaddpd %ymm2, %ymm15, %ymm2

	// unroll 2
	vmovapd 96(%r12), %ymm13 // B[12]
	vmulpd %ymm8, %ymm12, %ymm15
	vaddpd %ymm0, %ymm15, %ymm0
	vshufpd $0x5, %ymm12, %ymm12, %ymm14

	vperm2f128 $0x1, %ymm14, %ymm14, %ymm12
	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm1, %ymm15, %ymm1
	vmovapd 96(%r11), %ymm10 // A0[12]

	vmulpd %ymm8, %ymm12, %ymm15
	vaddpd %ymm3, %ymm15, %ymm3
	vshufpd $0x5, %ymm12, %ymm12, %ymm14
	addq $128, %r12

	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm2, %ymm15, %ymm2
	addq $128, %r11


	// unroll 3
	vmovapd 0(%r12), %ymm12 // B[0]
	vmulpd %ymm10, %ymm13, %ymm15
	vaddpd %ymm0, %ymm15, %ymm0
	vshufpd $0x5, %ymm13, %ymm13, %ymm14

	vperm2f128 $0x1, %ymm14, %ymm14, %ymm13
	vmulpd %ymm10, %ymm14, %ymm15
	vaddpd %ymm1, %ymm15, %ymm1
	vmovapd 0(%r11), %ymm8 // A0[0]

	vmulpd %ymm10, %ymm13, %ymm15
	vaddpd %ymm3, %ymm15, %ymm3
	vshufpd $0x5, %ymm13, %ymm13, %ymm14

	vmulpd %ymm10, %ymm14, %ymm15
	vaddpd %ymm2, %ymm15, %ymm2

	cmpl $4, %r10d
	jg 1b // main loop


	0: // consider clean4-up

	cmpl $3, %r10d
	jle 4f // clean1

	// unroll 0
	vmovapd 32(%r12), %ymm13 // B[4]
	vmulpd %ymm8, %ymm12, %ymm15
	vaddpd %ymm0, %ymm15, %ymm0
	vshufpd $0x5, %ymm12, %ymm12, %ymm14

	vperm2f128 $0x1, %ymm14, %ymm14, %ymm12
	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm1, %ymm15, %ymm1
	vmovapd 32(%r11), %ymm10 // A0[4]

	vmulpd %ymm8, %ymm12, %ymm15
	vaddpd %ymm3, %ymm15, %ymm3
	vshufpd $0x5, %ymm12, %ymm12, %ymm14

	subl $4, %r10d
	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm2, %ymm15, %ymm2

	// unroll 1
	vmovapd 64(%r12), %ymm12 // B[8]
	vmulpd %ymm10, %ymm13, %ymm15
	vaddpd %ymm0, %ymm15, %ymm0
	vshufpd $0x5, %ymm13, %ymm13, %ymm14

	vperm2f128 $0x1, %ymm14, %ymm14, %ymm13
	vmulpd %ymm10, %ymm14, %ymm15
	vaddpd %ymm1, %ymm15, %ymm1
	vmovapd 64(%r11), %ymm8 // A0[8]

	vmulpd %ymm10, %ymm13, %ymm15
	vaddpd %ymm3, %ymm15, %ymm3
	vshufpd $0x5, %ymm13, %ymm13, %ymm14

	vmulpd %ymm10, %ymm14, %ymm15
	vaddpd %ymm2, %ymm15, %ymm2

	// unroll 2
	vmovapd 96(%r12), %ymm13 // B[12]
	vmulpd %ymm8, %ymm12, %ymm15
	vaddpd %ymm0, %ymm15, %ymm0
	vshufpd $0x5, %ymm12, %ymm12, %ymm14

	vperm2f128 $0x1, %ymm14, %ymm14, %ymm12
	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm1, %ymm15, %ymm1
	vmovapd 96(%r11), %ymm10 // A0[12]

	vmulpd %ymm8, %ymm12, %ymm15
	vaddpd %ymm3, %ymm15, %ymm3
	vshufpd $0x5, %ymm12, %ymm12, %ymm14
	addq $128, %r12

	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm2, %ymm15, %ymm2
	addq $128, %r11


	// unroll 3
	// vmovapd 0(%r12), %ymm12 // B[0]
	vmulpd %ymm10, %ymm13, %ymm15
	vaddpd %ymm0, %ymm15, %ymm0
	vshufpd $0x5, %ymm13, %ymm13, %ymm14

	vperm2f128 $0x1, %ymm14, %ymm14, %ymm13
	vmulpd %ymm10, %ymm14, %ymm15
	vaddpd %ymm1, %ymm15, %ymm1
	// vmovapd 0(%r11), %ymm8 // A0[0]

	vmulpd %ymm10, %ymm13, %ymm15
	vaddpd %ymm3, %ymm15, %ymm3
	vshufpd $0x5, %ymm13, %ymm13, %ymm14

	vmulpd %ymm10, %ymm14, %ymm15
	vaddpd %ymm2, %ymm15, %ymm2


	// cmpl $3, %r10d
	jmp 2f // return


	4: // consider clean1-up loop

	cmpl $0, %r10d
	jle 2f // return

	// clean-up loop
	3: // clean up loop

	vmovapd 0(%r12), %ymm12 // B[0]
	vmovapd 0(%r11), %ymm8 // A0[0]
	vmulpd %ymm8, %ymm12, %ymm15
	vaddpd %ymm0, %ymm15, %ymm0
	addq $32, %r11

	vshufpd $0x5, %ymm12, %ymm12, %ymm14
	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm1, %ymm15, %ymm1
	addq $32, %r12

	vperm2f128 $0x1, %ymm14, %ymm14, %ymm14
	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm3, %ymm15, %ymm3
	subl $1, %r10d

	vshufpd $0x5, %ymm14, %ymm14, %ymm14
	vmulpd %ymm8, %ymm14, %ymm15
	vaddpd %ymm2, %ymm15, %ymm2

	cmpl $0, %r10d
	jg 3b // clean up loop


	2: // return

	#if MACRO_LEVEL>=2
	.endm
	#else
	ret

	#if defined(OS_LINUX)
	.size inner_kernel_dgemm_add_nt_4x4_lib4, .-inner_kernel_dgemm_add_nt_4x4_lib4
	#endif
	#endif





	// common inner routine with file scope
	//
	// blend for generic alpha and beta
	//
	// input arguments:
	// r10 <- alpha
	// r11 <- beta
	// r12 <- C
	// ymm0 <- [d00 d11 d22 d33]
	// ymm1 <- [d01 d10 d23 d32]
	// ymm2 <- [d03 d12 d21 d30]
	// ymm3 <- [d02 d13 d20 d31]
	// ymm8 <- dirty
	// ymm9 <- dirty
	// ymm10 <- dirty
	// ymm11 <- dirty
	// ymm15 <- dirty
	//
	// output arguments:
	// r10 <- alpha
	// r11 <- beta
	// r12 <- C
	// ymm0 <- [d00 d10 d20 d30]
	// ymm1 <- [d01 d11 d21 d31]
	// ymm2 <- [d02 d12 d22 d32]
	// ymm3 <- [d03 d13 d23 d33]
	// ymm8 <- dirty
	// ymm9 <- dirty
	// ymm10 <- dirty
	// ymm11 <- dirty
	// ymm15 <- dirty

	#if MACRO_LEVEL>=1
	.macro INNER_BLEND_SCALE_AB_4X4_LIB4
	#else
	.p2align 4,,15
	#if defined(OS_LINUX)
	.type inner_blend_scale_ab_4x4_lib4, @function
	inner_blend_scale_ab_4x4_lib4:
	#elif defined(OS_MAC)
	_inner_blend_scale_ab_4x4_lib4:
	#elif defined(OS_WINDOWS)
	.def inner_blend_scale_ab_4x4_lib4; .scl 2; .type 32; .endef
	inner_blend_scale_ab_4x4_lib4:
	#endif
	#endif

	// alpha
	vbroadcastsd 0(%r10), %ymm15

	vblendpd $0xa, %ymm1, %ymm0, %ymm8
	vblendpd $0x5, %ymm1, %ymm0, %ymm9
	vblendpd $0xa, %ymm3, %ymm2, %ymm10
	vblendpd $0x5, %ymm3, %ymm2, %ymm11

	vblendpd $0xc, %ymm10, %ymm8, %ymm0
	vblendpd $0x3, %ymm10, %ymm8, %ymm2
	vblendpd $0xc, %ymm11, %ymm9, %ymm1
	vblendpd $0x3, %ymm11, %ymm9, %ymm3

	vmulpd %ymm0, %ymm15, %ymm0
	vmulpd %ymm1, %ymm15, %ymm1
	vmulpd %ymm2, %ymm15, %ymm2
	vmulpd %ymm3, %ymm15, %ymm3

	// beta
	vbroadcastsd 0(%r11), %ymm14

	vxorpd %ymm15, %ymm15, %ymm15 // 0.0

	vucomisd %xmm15, %xmm14 // beta==0.0 ?
	je 0f // end

	vmovupd 0(%r12), %ymm15
	vmulpd %ymm15, %ymm14, %ymm15
	vaddpd %ymm0, %ymm15, %ymm0
	vmovupd 32(%r12), %ymm15
	vmulpd %ymm15, %ymm14, %ymm15
	vaddpd %ymm1, %ymm15, %ymm1
	vmovupd 64(%r12), %ymm15
	vmulpd %ymm15, %ymm14, %ymm15
	vaddpd %ymm2, %ymm15, %ymm2
	vmovupd 96(%r12), %ymm15
	vmulpd %ymm15, %ymm14, %ymm15
	vaddpd %ymm3, %ymm15, %ymm3

	0:

	#if MACRO_LEVEL>=1
	.endm
	#else
	ret

	#if defined(OS_LINUX)
	.size inner_blend_scale_ab_4x4_lib4, .-inner_blend_scale_ab_4x4_lib4
	#endif
	#endif





	// common inner routine with file scope
	//
	// store n
	//
	// input arguments:
	// r10 <- D
	// ymm0 <- [d00 d11 d22 d33]
	// ymm1 <- [d01 d10 d23 d32]
	// ymm2 <- [d03 d12 d21 d30]
	// ymm3 <- [d02 d13 d20 d31]
	//
	// output arguments:
	// r10 <- D
	// ymm0 <- [d00 d10 d20 d30]
	// ymm1 <- [d01 d11 d21 d31]
	// ymm2 <- [d02 d12 d22 d32]
	// ymm3 <- [d03 d13 d23 d33]

	#if MACRO_LEVEL>=1
	.macro INNER_STORE_4X4_LIB4
	#else
	.p2align 4,,15
	#if defined(OS_LINUX)
	.type inner_store_4x4_lib4, @function
	inner_store_4x4_lib4:
	#elif defined(OS_MAC)
	_inner_store_4x4_lib4:
	#elif defined(OS_WINDOWS)
	.def inner_store_4x4_lib4; .scl 2; .type 32; .endef
	inner_store_4x4_lib4:
	#endif
	#endif

	vmovupd %ymm0, 0(%r10)
	vmovupd %ymm1, 32(%r10)
	vmovupd %ymm2, 64(%r10)
	vmovupd %ymm3, 96(%r10)

	#if MACRO_LEVEL>=1
	.endm
	#else
	ret

	#if defined(OS_LINUX)
	.size inner_store_4x4_lib4, .-inner_store_4x4_lib4
	#endif
	#endif





	// 1 2 3 4 5 6 7
	// void kernel_dgemm_nt_4x4_lib4(int k, double alpha, double A, double B, double beta, double C, double D);

	.p2align 4,,15
	#if defined(OS_LINUX) \| defined(OS_WINDOWS)
	.globl kernel_dgemm_nt_4x4_lib4_test
	#if defined(OS_LINUX)
	.type kernel_dgemm_nt_4x4_lib4_test, @function
	#else // OS_WINDOWS
	.def kernel_dgemm_nt_4x4_lib4_test; .scl 2; .type 32; .endef
	#endif
	kernel_dgemm_nt_4x4_lib4_test:
	#elif defined(OS_MAC)
	.globl _kernel_dgemm_nt_4x4_lib4_test
	_kernel_dgemm_nt_4x4_lib4_test:
	#endif

	// prologue

	subq $STACKSIZE, %rsp
	movq %rbx, (%rsp)
	movq %rbp, 8(%rsp)
	movq %r12, 16(%rsp)
	movq %r13, 24(%rsp)
	movq %r14, 32(%rsp)
	movq %r15, 40(%rsp)
	#if defined(OS_WINDOWS)
	movq %rdi, 48(%rsp)
	movq %rsi, 56(%rsp)
	vmovups %xmm6, 64(%rsp)
	vmovups %xmm7, 80(%rsp)
	vmovups %xmm8, 96(%rsp)
	vmovups %xmm9, 112(%rsp)
	vmovups %xmm10, 128(%rsp)
	vmovups %xmm11, 144(%rsp)
	vmovups %xmm12, 160(%rsp)
	vmovups %xmm13, 176(%rsp)
	vmovups %xmm14, 192(%rsp)
	vmovups %xmm15, 208(%rsp)
	#endif

	vzeroupper


	// zero accumulation registers

	vxorpd %ymm0, %ymm0, %ymm0
	vmovapd %ymm0, %ymm1
	vmovapd %ymm0, %ymm2
	vmovapd %ymm0, %ymm3


	// call inner dgemm kernel nt

	movq ARG1, %r10 // k
	movq ARG3, %r11 // A
	movq ARG4, %r12 // B

	#if MACRO_LEVEL>=2
	INNER_KERNEL_DGEMM_ADD_NT_4X4_LIB4
	#else
	#if defined(OS_LINUX) \| defined(OS_WINDOWS)
	call inner_kernel_dgemm_add_nt_4x4_lib4
	#elif defined(OS_MAC)
	callq _inner_kernel_dgemm_add_nt_4x4_lib4
	#endif
	#endif


	// call inner blend scale

	movq ARG2, %r10 // alpha
	movq ARG5, %r11 // beta
	movq ARG6, %r12 // C

	#if MACRO_LEVEL>=1
	INNER_BLEND_SCALE_AB_4X4_LIB4
	#else
	#if defined(OS_LINUX) \| defined(OS_WINDOWS)
	call inner_blend_scale_ab_4x4_lib4
	#elif defined(OS_MAC)
	callq _inner_blend_scale_ab_4x4_lib4
	#endif
	#endif


	// store n

	movq ARG7, %r10 // D

	#if MACRO_LEVEL>=1
	INNER_STORE_4X4_LIB4
	#else
	#if defined(OS_LINUX) \| defined(OS_WINDOWS)
	call inner_store_4x4_lib4
	#elif defined(OS_MAC)
	callq _inner_store_4x4_lib4
	#endif
	#endif

	// movq ARG6, %rax
	// movq STACKSIZE + 48(%rsp), %rax


	// epilogue

	vzeroupper

	movq (%rsp), %rbx
	movq 8(%rsp), %rbp
	movq 16(%rsp), %r12
	movq 24(%rsp), %r13
	movq 32(%rsp), %r14
	movq 40(%rsp), %r15
	#if defined(OS_WINDOWS)
	movq 48(%rsp), %rdi
	movq 56(%rsp), %rsi
	vmovups 64(%rsp), %xmm6
	vmovups 80(%rsp), %xmm7
	vmovups 96(%rsp), %xmm8
	vmovups 112(%rsp), %xmm9
	vmovups 128(%rsp), %xmm10
	vmovups 144(%rsp), %xmm11
	vmovups 160(%rsp), %xmm12
	vmovups 176(%rsp), %xmm13
	vmovups 192(%rsp), %xmm14
	vmovups 208(%rsp), %xmm15
	#endif
	addq $STACKSIZE, %rsp


	ret

	#if defined(OS_LINUX)
	.size kernel_dgemm_nt_4x4_lib4_test, .-kernel_dgemm_nt_4x4_lib4_test
	#endif