Blame - blas/s_lapack_lib8.c - RealtimeRoboticsGroup/test

blob: 3b5239e9d805878937369d432dbda61c48f67c8a [file] [log] [blame]

Austin Schuh	9a24b37	2018-01-28 16:12:29 -0800	[diff] [blame^]	1	/**************************************************************************************************
				2	* *
				3	* This file is part of BLASFEO. *
				4	* *
				5	* BLASFEO -- BLAS For Embedded Optimization. *
				6	* Copyright (C) 2016-2017 by Gianluca Frison. *
				7	* Developed at IMTEK (University of Freiburg) under the supervision of Moritz Diehl. *
				8	* All rights reserved. *
				9	* *
				10	* HPMPC is free software; you can redistribute it and/or *
				11	* modify it under the terms of the GNU Lesser General Public *
				12	* License as published by the Free Software Foundation; either *
				13	* version 2.1 of the License, or (at your option) any later version. *
				14	* *
				15	* HPMPC is distributed in the hope that it will be useful, *
				16	* but WITHOUT ANY WARRANTY; without even the implied warranty of *
				17	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. *
				18	* See the GNU Lesser General Public License for more details. *
				19	* *
				20	* You should have received a copy of the GNU Lesser General Public *
				21	* License along with HPMPC; if not, write to the Free Software *
				22	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA *
				23	* *
				24	* Author: Gianluca Frison, giaf (at) dtu.dk *
				25	* gianluca.frison (at) imtek.uni-freiburg.de *
				26	* *
				27	**************************************************************************************************/
				28
				29	#include <stdlib.h>
				30	#include <stdio.h>
				31	#include <math.h>
				32
				33	#include "../include/blasfeo_common.h"
				34	#include "../include/blasfeo_s_aux.h"
				35	#include "../include/blasfeo_s_kernel.h"
				36
				37
				38
				39	void spotrf_l_libstr(int m, struct s_strmat sC, int ci, int cj, struct s_strmat sD, int di, int dj)
				40	{
				41
				42	if(m<=0)
				43	return;
				44
				45	if(ci>0 \| di>0)
				46	{
				47	printf("\nspotrf_l_libstr: feature not implemented yet: ci>0, di>0\n");
				48	exit(1);
				49	}
				50
				51	const int bs = 8;
				52
				53	int i, j;
				54
				55	int sdc = sC->cn;
				56	int sdd = sD->cn;
				57	float pC = sC->pA + cjbs;
				58	float pD = sD->pA + djbs;
				59	float *dD = sD->dA; // XXX what to do if di and dj are not zero
				60	if(di==0 & dj==0)
				61	sD->use_dA = 1;
				62	else
				63	sD->use_dA = 0;
				64
				65	i = 0;
				66	#if defined(TARGET_X64_INTEL_HASWELL)
				67	for(; i<m-23; i+=24)
				68	{
				69	j = 0;
				70	for(; j<i; j+=8)
				71	{
				72	kernel_strsm_nt_rl_inv_24x4_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0]);
				73	kernel_strsm_nt_rl_inv_24x4_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4]);
				74	}
				75	kernel_spotrf_nt_l_24x4_lib8((j+0), &pD[(i+0)sdd], sdd, &pD[(j+0)sdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0]);
				76	kernel_spotrf_nt_l_20x4_lib8((j+4), &pD[(i+0)sdd], sdd, &pD[4+(j+0)sdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4]);
				77	kernel_spotrf_nt_l_16x4_lib8((j+8), &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8]);
				78	kernel_spotrf_nt_l_12x4_lib8((j+12), &pD[(i+8)sdd], sdd, &pD[4+(j+8)sdd], &pC[(j+12)bs+(j+8)sdc], sdc, &pD[(j+12)bs+(j+8)sdd], sdd, &dD[j+12]);
				79	kernel_spotrf_nt_l_8x8_lib8(j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16]);
				80	}
				81	if(m>i)
				82	{
				83	if(m-i<=4)
				84	{
				85	goto left_4;
				86	}
				87	else if(m-i<=8)
				88	{
				89	goto left_8;
				90	}
				91	else if(m-i<=12)
				92	{
				93	goto left_12;
				94	}
				95	else if(m-i<=16)
				96	{
				97	goto left_16;
				98	}
				99	else
				100	{
				101	goto left_24;
				102	}
				103	}
				104	#else
				105	for(; i<m-15; i+=16)
				106	{
				107	j = 0;
				108	for(; j<i; j+=8)
				109	{
				110	kernel_strsm_nt_rl_inv_16x4_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0]);
				111	kernel_strsm_nt_rl_inv_16x4_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4]);
				112	}
				113	kernel_spotrf_nt_l_16x4_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0]);
				114	kernel_spotrf_nt_l_12x4_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4]);
				115	kernel_spotrf_nt_l_8x8_lib8((j+8), &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8]);
				116	}
				117	if(m>i)
				118	{
				119	if(m-i<=8)
				120	{
				121	goto left_8;
				122	}
				123	else
				124	{
				125	goto left_16;
				126	}
				127	}
				128	#endif
				129
				130	// common return if i==m
				131	return;
				132
				133	// clean up loops definitions
				134
				135	#if defined(TARGET_X64_INTEL_HASWELL)
				136	left_24: // 17 <= m <= 23
				137	j = 0;
				138	for(; j<i & j<m-7; j+=8)
				139	{
				140	kernel_strsm_nt_rl_inv_24x4_vs_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0], m-i, m-(j+0));
				141	kernel_strsm_nt_rl_inv_24x4_vs_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4], m-i, m-(j+4));
				142	}
				143	kernel_spotrf_nt_l_24x4_vs_lib8((j+0), &pD[(i+0)sdd], sdd, &pD[(j+0)sdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0], m-(i+0), m-(j+0));
				144	kernel_spotrf_nt_l_20x4_vs_lib8((j+4), &pD[(i+0)sdd], sdd, &pD[4+(j+0)sdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4], m-(i+0), m-(j+4));
				145	kernel_spotrf_nt_l_16x4_vs_lib8((j+8), &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8], m-(i+8), m-(j+8));
				146	kernel_spotrf_nt_l_12x4_vs_lib8((j+12), &pD[(i+8)sdd], sdd, &pD[4+(j+8)sdd], &pC[(j+12)bs+(j+8)sdc], sdc, &pD[(j+12)bs+(j+8)sdd], sdd, &dD[j+12], m-(i+8), m-(j+12));
				147	if(j<m-20) // 21 - 23
				148	{
				149	kernel_spotrf_nt_l_8x8_vs_lib8(j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16], m-(i+16), m-(j+16));
				150	}
				151	else // 17 18 19 20
				152	{
				153	kernel_spotrf_nt_l_8x4_vs_lib8(j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16], m-(i+16), m-(j+16));
				154	}
				155	return;
				156	#endif
				157
				158	left_16: // 9 <= m <= 16
				159	j = 0;
				160	for(; j<i; j+=8)
				161	{
				162	kernel_strsm_nt_rl_inv_16x4_vs_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0], m-i, m-(j+0));
				163	kernel_strsm_nt_rl_inv_16x4_vs_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4], m-i, m-(j+4));
				164	}
				165	kernel_spotrf_nt_l_16x4_vs_lib8(j+0, &pD[(i+0)sdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+jsdc], sdc, &pD[(j+0)bs+jsdd], sdd, &dD[j+0], m-(i+0), m-(j+0));
				166	kernel_spotrf_nt_l_12x4_vs_lib8(j+4, &pD[(i+0)sdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+jsdc], sdc, &pD[(j+4)bs+jsdd], sdd, &dD[j+4], m-(i+0), m-(j+4));
				167	if(j<m-12) // 13 - 16
				168	{
				169	kernel_spotrf_nt_l_8x8_vs_lib8((j+8), &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8], m-(i+8), m-(j+8));
				170	}
				171	else // 9 - 12
				172	{
				173	kernel_spotrf_nt_l_8x4_vs_lib8((j+8), &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8], m-(i+8), m-(j+8));
				174	}
				175	return;
				176
				177	#if defined(TARGET_X64_INTEL_HASWELL)
				178	left_12: // 9 <= m <= 12
				179	j = 0;
				180	for(; j<i; j+=8)
				181	{
				182	kernel_strsm_nt_rl_inv_8x8_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+isdc], &pD[jbs+isdd], &pD[jbs+jsdd], &dD[j], m-i, m-j);
				183	kernel_strsm_nt_rl_inv_4x8_vs_lib8(j, &pD[(i+8)sdd], &pD[jsdd], &pC[jbs+(i+8)sdc], &pD[jbs+(i+8)sdd], &pD[jbs+jsdd], &dD[j], m-(i+8), m-j);
				184	}
				185	kernel_spotrf_nt_l_8x8_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+jsdc], &pD[jbs+jsdd], &dD[j], m-i, m-j);
				186	kernel_strsm_nt_rl_inv_4x8_vs_lib8(j, &pD[(i+8)sdd], &pD[jsdd], &pC[jbs+(i+8)sdc], &pD[jbs+(i+8)sdd], &pD[jbs+jsdd], &dD[j], m-(i+8), m-j);
				187	if(j<m-8) // 9 - 12
				188	{
				189	kernel_spotrf_nt_l_8x4_vs_lib8((j+8), &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[(j+8)], m-(i+8), m-(j+8));
				190	}
				191	return;
				192	#endif
				193
				194	left_8: // 1 <= m <= 8
				195	j = 0;
				196	for(; j<i; j+=8)
				197	{
				198	kernel_strsm_nt_rl_inv_8x8_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+isdc], &pD[jbs+isdd], &pD[jbs+jsdd], &dD[j], m-i, m-j);
				199	}
				200	if(j<m-4) // 5 - 8
				201	{
				202	kernel_spotrf_nt_l_8x8_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+jsdc], &pD[jbs+jsdd], &dD[j], m-i, m-j);
				203	}
				204	else // 1 - 4
				205	{
				206	kernel_spotrf_nt_l_8x4_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+jsdc], &pD[jbs+jsdd], &dD[j], m-i, m-j);
				207	}
				208	return;
				209
				210	#if defined(TARGET_X64_INTEL_HASWELL)
				211	left_4: // 1 <= m <= 4
				212	j = 0;
				213	for(; j<i; j+=8)
				214	{
				215	kernel_strsm_nt_rl_inv_4x8_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+isdc], &pD[jbs+isdd], &pD[jbs+jsdd], &dD[j], m-i, m-j);
				216	}
				217	kernel_spotrf_nt_l_8x4_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+jsdc], &pD[jbs+jsdd], &dD[j], m-i, m-j);
				218	return;
				219	#endif
				220
				221	}
				222
				223
				224
				225	void spotrf_l_mn_libstr(int m, int n, struct s_strmat sC, int ci, int cj, struct s_strmat sD, int di, int dj)
				226	{
				227
				228	if(m<=0 \| n<=0)
				229	return;
				230
				231	if(ci>0 \| di>0)
				232	{
				233	printf("\nspotrf_l_mn_libstr: feature not implemented yet: ci>0, di>0\n");
				234	exit(1);
				235	}
				236
				237	const int bs = 8;
				238
				239	int i, j;
				240
				241	int sdc = sC->cn;
				242	int sdd = sD->cn;
				243	float pC = sC->pA + cjbs;
				244	float pD = sD->pA + djbs;
				245	float *dD = sD->dA; // XXX what to do if di and dj are not zero
				246	if(di==0 & dj==0)
				247	sD->use_dA = 1;
				248	else
				249	sD->use_dA = 0;
				250
				251	i = 0;
				252	#if defined(TARGET_X64_INTEL_HASWELL)
				253	for(; i<m-23; i+=24)
				254	{
				255	j = 0;
				256	for(; j<i & j<n-7; j+=8)
				257	{
				258	kernel_strsm_nt_rl_inv_24x4_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0]);
				259	kernel_strsm_nt_rl_inv_24x4_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4]);
				260	}
				261	if(j<n)
				262	{
				263	if(i<j) // dtrsm
				264	{
				265	kernel_strsm_nt_rl_inv_24x4_vs_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				266	if(j<n-4) // 5 6 7
				267	{
				268	kernel_strsm_nt_rl_inv_24x4_vs_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[(j+4)bs+(j+4)sdd], &dD[j+4], m-i, n-(j+4));
				269	}
				270	}
				271	else // dpotrf
				272	{
				273	if(j<n-23)
				274	{
				275	kernel_spotrf_nt_l_24x4_lib8((j+0), &pD[(i+0)sdd], sdd, &pD[(j+0)sdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0]);
				276	kernel_spotrf_nt_l_20x4_lib8((j+4), &pD[(i+0)sdd], sdd, &pD[4+(j+0)sdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4]);
				277	kernel_spotrf_nt_l_16x4_lib8((j+8), &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8]);
				278	kernel_spotrf_nt_l_12x4_lib8((j+12), &pD[(i+8)sdd], sdd, &pD[4+(j+8)sdd], &pC[(j+12)bs+(j+8)sdc], sdc, &pD[(j+12)bs+(j+8)sdd], sdd, &dD[j+12]);
				279	kernel_spotrf_nt_l_8x8_lib8((j+16), &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16]);
				280	}
				281	else
				282	{
				283	if(j<n-4) // 5 - 23
				284	{
				285	kernel_spotrf_nt_l_24x4_vs_lib8((j+0), &pD[(i+0)sdd], sdd, &pD[(j+0)sdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0], m-(i+0), n-(j+0));
				286	kernel_spotrf_nt_l_20x4_vs_lib8((j+4), &pD[(i+0)sdd], sdd, &pD[4+(j+0)sdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4], m-(i+0), n-(j+4));
				287	if(j==n-8)
				288	return;
				289	if(j<n-12) // 13 - 23
				290	{
				291	kernel_spotrf_nt_l_16x4_vs_lib8((j+8), &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8], m-(i+8), n-(j+8));
				292	kernel_spotrf_nt_l_12x4_vs_lib8((j+12), &pD[(i+8)sdd], sdd, &pD[4+(j+8)sdd], &pC[(j+12)bs+(j+8)sdc], sdc, &pD[(j+12)bs+(j+8)sdd], sdd, &dD[j+12], m-(i+8), n-(j+12));
				293	if(j==n-16)
				294	return;
				295	if(j<n-20) // 21 - 23
				296	{
				297	kernel_spotrf_nt_l_8x8_vs_lib8(j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16], m-(i+16), n-(j+16));
				298	}
				299	else // 17 18 19 20
				300	{
				301	kernel_spotrf_nt_l_8x4_vs_lib8(j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16], m-(i+16), n-(j+16));
				302	}
				303	}
				304	else // 9 10 11 12
				305	{
				306	kernel_spotrf_nt_l_16x4_vs_lib8(j+8, &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8], m-(i+8), n-(j+8));
				307	}
				308	}
				309	else // 1 2 3 4
				310	{
				311	kernel_spotrf_nt_l_24x4_vs_lib8(j, &pD[(i+0)sdd], sdd, &pD[jsdd], &pC[jbs+jsdc], sdc, &pD[jbs+jsdd], sdd, &dD[j], m-(i+0), n-j);
				312	}
				313	}
				314	}
				315	}
				316	}
				317	if(m>i)
				318	{
				319	if(m-i<=8)
				320	{
				321	goto left_8;
				322	}
				323	else if(m-i<=16)
				324	{
				325	goto left_16;
				326	}
				327	else
				328	{
				329	goto left_24;
				330	}
				331	}
				332	#else
				333	for(; i<m-15; i+=16)
				334	{
				335	j = 0;
				336	for(; j<i & j<n-7; j+=8)
				337	{
				338	kernel_strsm_nt_rl_inv_16x4_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0]);
				339	kernel_strsm_nt_rl_inv_16x4_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4]);
				340	}
				341	if(j<n)
				342	{
				343	if(i<j) // dtrsm
				344	{
				345	kernel_strsm_nt_rl_inv_16x4_vs_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				346	if(j<n-4) // 5 6 7
				347	{
				348	kernel_strsm_nt_rl_inv_16x4_vs_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[(j+4)bs+(j+4)sdd], &dD[j+4], m-i, n-(j+4));
				349	}
				350	}
				351	else // dpotrf
				352	{
				353	if(j<n-15)
				354	{
				355	kernel_spotrf_nt_l_16x4_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0]);
				356	kernel_spotrf_nt_l_12x4_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4]);
				357	kernel_spotrf_nt_l_8x8_lib8((j+8), &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8]);
				358	}
				359	else
				360	{
				361	if(j<n-4) // 5 - 15
				362	{
				363	kernel_spotrf_nt_l_16x4_vs_lib8((j+0), &pD[(i+0)sdd], sdd, &pD[(j+0)sdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0], m-(i+0), n-(j+0));
				364	kernel_spotrf_nt_l_12x4_vs_lib8((j+4), &pD[(i+0)sdd], sdd, &pD[4+(j+0)sdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4], m-(i+0), n-(j+4));
				365	if(j==n-8) // 8
				366	return;
				367	if(j<n-12) // 13 - 15
				368	{
				369	kernel_spotrf_nt_l_8x8_vs_lib8(j+8, &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8], m-(i+8), n-(j+8));
				370	}
				371	else // 9 10 11 12
				372	{
				373	kernel_spotrf_nt_l_8x4_vs_lib8(j+8, &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8], m-(i+8), n-(j+8));
				374	}
				375	}
				376	else // 1 2 3 4
				377	{
				378	kernel_spotrf_nt_l_16x4_vs_lib8(j, &pD[(i+0)sdd], sdd, &pD[jsdd], &pC[jbs+jsdc], sdc, &pD[jbs+jsdd], sdd, &dD[j], m-(i+0), n-j);
				379	}
				380	}
				381	}
				382	}
				383	}
				384	if(m>i)
				385	{
				386	if(m-i<=8)
				387	{
				388	goto left_8;
				389	}
				390	else
				391	{
				392	goto left_16;
				393	}
				394	}
				395	#endif
				396
				397	// common return if i==m
				398	return;
				399
				400	// clean up loops definitions
				401
				402	#if defined(TARGET_X64_INTEL_HASWELL)
				403	left_24:
				404	j = 0;
				405	for(; j<i & j<n-7; j+=8)
				406	{
				407	kernel_strsm_nt_rl_inv_24x4_vs_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				408	kernel_strsm_nt_rl_inv_24x4_vs_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4], m-i, n-(j+4));
				409	}
				410	if(j<n)
				411	{
				412	if(j<i) // dtrsm
				413	{
				414	kernel_strsm_nt_rl_inv_24x4_vs_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				415	if(j<n-4) // 5 6 7
				416	{
				417	kernel_strsm_nt_rl_inv_24x4_vs_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4], m-i, n-(j+4));
				418	}
				419	}
				420	else // dpotrf
				421	{
				422	if(j<n-4) // 5 - 23
				423	{
				424	kernel_spotrf_nt_l_24x4_vs_lib8((j+0), &pD[(i+0)sdd], sdd, &pD[(j+0)sdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0], m-(i+0), n-(j+0));
				425	kernel_spotrf_nt_l_20x4_vs_lib8((j+4), &pD[(i+0)sdd], sdd, &pD[4+(j+0)sdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4], m-(i+0), n-(j+4));
				426	if(j>=n-8)
				427	return;
				428	if(j<n-12) // 13 - 23
				429	{
				430	kernel_spotrf_nt_l_16x4_vs_lib8((j+8), &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8], m-(i+8), n-(j+8));
				431	kernel_spotrf_nt_l_12x4_vs_lib8((j+12), &pD[(i+8)sdd], sdd, &pD[4+(j+8)sdd], &pC[(j+12)bs+(j+8)sdc], sdc, &pD[(j+12)bs+(j+8)sdd], sdd, &dD[j+12], m-(i+8), n-(j+12));
				432	if(j>=n-16)
				433	return;
				434	if(j<n-20) // 21 - 23
				435	{
				436	kernel_spotrf_nt_l_8x8_vs_lib8(j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16], m-(i+16), n-(j+16));
				437	}
				438	else // 17 18 19 20
				439	{
				440	kernel_spotrf_nt_l_8x4_vs_lib8(j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16], m-(i+16), n-(j+16));
				441	}
				442	}
				443	else // 9 10 11 12
				444	{
				445	kernel_spotrf_nt_l_16x4_vs_lib8(j+8, &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8], m-(i+8), n-(j+8));
				446	}
				447	}
				448	else // 1 2 3 4
				449	{
				450	kernel_spotrf_nt_l_24x4_vs_lib8(j, &pD[(i+0)sdd], sdd, &pD[jsdd], &pC[jbs+jsdc], sdc, &pD[jbs+jsdd], sdd, &dD[j], m-(i+0), n-j);
				451	}
				452	}
				453	}
				454	return;
				455	#endif
				456
				457	left_16:
				458	j = 0;
				459	for(; j<i & j<n-7; j+=8)
				460	{
				461	kernel_strsm_nt_rl_inv_16x4_vs_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				462	kernel_strsm_nt_rl_inv_16x4_vs_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4], m-i, n-(j+4));
				463	}
				464	if(j<n)
				465	{
				466	if(j<i) // dtrsm
				467	{
				468	kernel_strsm_nt_rl_inv_16x4_vs_lib8(j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				469	if(j<n-4) // 5 6 7
				470	{
				471	kernel_strsm_nt_rl_inv_16x4_vs_lib8(j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4], m-i, n-(j+4));
				472	}
				473	}
				474	else // dpotrf
				475	{
				476	if(j<n-4) // 5 - 15
				477	{
				478	kernel_spotrf_nt_l_16x4_vs_lib8(j+0, &pD[(i+0)sdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+jsdc], sdc, &pD[(j+0)bs+jsdd], sdd, &dD[j+0], m-(i+0), n-(j+0));
				479	kernel_spotrf_nt_l_12x4_vs_lib8(j+4, &pD[(i+0)sdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+jsdc], sdc, &pD[(j+4)bs+jsdd], sdd, &dD[j+4], m-(i+0), n-(j+4));
				480	if(j>=n-8)
				481	return;
				482	if(j<n-12) // 13 - 15
				483	{
				484	kernel_spotrf_nt_l_8x8_vs_lib8((j+8), &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8], m-(i+8), n-(j+8));
				485	}
				486	else // 9 - 12
				487	{
				488	kernel_spotrf_nt_l_8x4_vs_lib8((j+8), &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8], m-(i+8), n-(j+8));
				489	}
				490	}
				491	else // 1 2 3 4
				492	{
				493	kernel_spotrf_nt_l_16x4_vs_lib8(j, &pD[(i+0)sdd], sdd, &pD[jsdd], &pC[jbs+jsdc], sdc, &pD[jbs+jsdd], sdd, &dD[j], m-(i+0), n-j);
				494	}
				495	}
				496	}
				497	return;
				498
				499	left_8:
				500	j = 0;
				501	for(; j<i & j<n-7; j+=8)
				502	{
				503	kernel_strsm_nt_rl_inv_8x8_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+isdc], &pD[jbs+isdd], &pD[jbs+jsdd], &dD[j], m-i, n-j);
				504	}
				505	if(j<n)
				506	{
				507	if(j<i) // dtrsm
				508	{
				509	if(j<n-4) // 5 6 7
				510	{
				511	kernel_strsm_nt_rl_inv_8x8_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+isdc], &pD[jbs+isdd], &pD[jbs+jsdd], &dD[j], m-i, n-j);
				512	}
				513	else // 1 2 3 4
				514	{
				515	kernel_strsm_nt_rl_inv_8x4_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+isdc], &pD[jbs+isdd], &pD[jbs+jsdd], &dD[j], m-i, n-j);
				516	}
				517	}
				518	else // dpotrf
				519	{
				520	if(j<n-4) // 5 6 7
				521	{
				522	kernel_spotrf_nt_l_8x8_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+jsdc], &pD[jbs+jsdd], &dD[j], m-i, n-j);
				523	}
				524	else // 1 2 3 4
				525	{
				526	kernel_spotrf_nt_l_8x4_vs_lib8(j, &pD[isdd], &pD[jsdd], &pC[jbs+jsdc], &pD[jbs+jsdd], &dD[j], m-i, n-j);
				527	}
				528	}
				529	}
				530
				531	return;
				532
				533	}
				534
				535
				536
				537	void ssyrk_spotrf_ln_libstr(int m, int n, int k, struct s_strmat sA, int ai, int aj, struct s_strmat sB, int bi, int bj, struct s_strmat sC, int ci, int cj, struct s_strmat sD, int di, int dj)
				538	{
				539
				540	if(ai!=0 \| bi!=0 \| ci!=0 \| di!=0)
				541	{
				542	printf("\nssyrk_spotrf_ln_libstr: feature not implemented yet: ai=%d, bi=%d, ci=%d, di=%d\n", ai, bi, ci, di);
				543	exit(1);
				544	}
				545
				546	const int bs = 8;
				547
				548	int i, j;
				549
				550	int sda = sA->cn;
				551	int sdb = sB->cn;
				552	int sdc = sC->cn;
				553	int sdd = sD->cn;
				554	float pA = sA->pA + ajbs;
				555	float pB = sB->pA + bjbs;
				556	float pC = sC->pA + cjbs;
				557	float pD = sD->pA + djbs;
				558	float *dD = sD->dA; // XXX what to do if di and dj are not zero
				559
				560	// ssyrk_spotrf_nt_l_lib(m, n, k, pA, sda, pB, sdb, pC, sdc, pD, sdd, dD);
				561
				562	if(di==0 && dj==0)
				563	sD->use_dA = 1;
				564	else
				565	sD->use_dA = 0;
				566
				567	i = 0;
				568	#if defined(TARGET_X64_INTEL_HASWELL)
				569	for(; i<m-23; i+=24)
				570	{
				571	j = 0;
				572	for(; j<i & j<n-7; j+=8)
				573	{
				574	kernel_sgemm_strsm_nt_rl_inv_24x4_lib8(k, &pA[isda], sda, &pB[0+jsdb], j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0]);
				575	kernel_sgemm_strsm_nt_rl_inv_24x4_lib8(k, &pA[isda], sda, &pB[4+jsdb], j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4]);
				576	}
				577	if(j<n)
				578	{
				579	if(i<j) // dtrsm
				580	{
				581	kernel_sgemm_strsm_nt_rl_inv_24x4_vs_lib8(k, &pA[isda], sda, &pB[0+jsdb], j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				582	if(j<n-4) // 5 6 7
				583	{
				584	kernel_sgemm_strsm_nt_rl_inv_24x4_vs_lib8(k, &pA[isda], sda, &pB[4+jsdb], j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[(j+4)bs+(j+4)sdd], &dD[j+4], m-i, n-(j+4));
				585	}
				586	}
				587	else // dpotrf
				588	{
				589	if(j<n-23)
				590	{
				591	kernel_ssyrk_spotrf_nt_l_24x4_lib8(k, &pA[(i+0)sda], sda, &pB[(j+0)sdb], (j+0), &pD[(i+0)sdd], sdd, &pD[(j+0)sdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0]);
				592	kernel_ssyrk_spotrf_nt_l_20x4_lib8(k, &pA[(i+0)sda], sda, &pB[4+(j+0)sdb], (j+4), &pD[(i+0)sdd], sdd, &pD[4+(j+0)sdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4]);
				593	kernel_ssyrk_spotrf_nt_l_16x4_lib8(k, &pA[(i+8)sda], sda, &pB[(j+8)sdb], (j+8), &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8]);
				594	kernel_ssyrk_spotrf_nt_l_12x4_lib8(k, &pA[(i+8)sda], sda, &pB[4+(j+8)sdb], (j+12), &pD[(i+8)sdd], sdd, &pD[4+(j+8)sdd], &pC[(j+12)bs+(j+8)sdc], sdc, &pD[(j+12)bs+(j+8)sdd], sdd, &dD[j+12]);
				595	kernel_ssyrk_spotrf_nt_l_8x8_lib8(k, &pA[(i+16)sda], &pB[(j+16)sdb], (j+16), &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16]);
				596	}
				597	else
				598	{
				599	if(j<n-4) // 5 - 23
				600	{
				601	kernel_ssyrk_spotrf_nt_l_24x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[(j+0)sdb], (j+0), &pD[(i+0)sdd], sdd, &pD[(j+0)sdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0], m-(i+0), n-(j+0));
				602	kernel_ssyrk_spotrf_nt_l_20x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[4+(j+0)sdb], (j+4), &pD[(i+0)sdd], sdd, &pD[4+(j+0)sdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4], m-(i+0), n-(j+4));
				603	if(j==n-8)
				604	return;
				605	if(j<n-12) // 13 - 23
				606	{
				607	kernel_ssyrk_spotrf_nt_l_16x4_vs_lib8(k, &pA[(i+8)sda], sda, &pB[(j+8)sdb], (j+8), &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8], m-(i+8), n-(j+8));
				608	kernel_ssyrk_spotrf_nt_l_12x4_vs_lib8(k, &pA[(i+8)sda], sda, &pB[4+(j+8)sdb], (j+12), &pD[(i+8)sdd], sdd, &pD[4+(j+8)sdd], &pC[(j+12)bs+(j+8)sdc], sdc, &pD[(j+12)bs+(j+8)sdd], sdd, &dD[j+12], m-(i+8), n-(j+12));
				609	if(j==n-16)
				610	return;
				611	if(j<n-20) // 21 - 23
				612	{
				613	kernel_ssyrk_spotrf_nt_l_8x8_vs_lib8(k, &pA[(i+16)sda], &pB[(j+16)sdb], j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16], m-(i+16), n-(j+16));
				614	}
				615	else // 17 18 19 20
				616	{
				617	kernel_ssyrk_spotrf_nt_l_8x4_vs_lib8(k, &pA[(i+16)sda], &pB[(j+16)sdb], j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16], m-(i+16), n-(j+16));
				618	}
				619	}
				620	else // 9 10 11 12
				621	{
				622	kernel_ssyrk_spotrf_nt_l_16x4_vs_lib8(k, &pA[(i+8)sda], sda, &pB[(j+8)sdb], j+8, &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8], m-(i+8), n-(j+8));
				623	}
				624	}
				625	else // 1 2 3 4
				626	{
				627	kernel_ssyrk_spotrf_nt_l_24x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[jsdb], j, &pD[(i+0)sdd], sdd, &pD[jsdd], &pC[jbs+jsdc], sdc, &pD[jbs+jsdd], sdd, &dD[j], m-(i+0), n-j);
				628	}
				629	}
				630	}
				631	}
				632	}
				633	if(m>i)
				634	{
				635	if(m-i<=8)
				636	{
				637	goto left_8;
				638	}
				639	else if(m-i<=16)
				640	{
				641	goto left_16;
				642	}
				643	else
				644	{
				645	goto left_24;
				646	}
				647	}
				648	#else
				649	for(; i<m-15; i+=16)
				650	{
				651	j = 0;
				652	for(; j<i & j<n-7; j+=8)
				653	{
				654	kernel_sgemm_strsm_nt_rl_inv_16x4_lib8(k, &pA[isda], sda, &pB[0+jsdb], j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0]);
				655	kernel_sgemm_strsm_nt_rl_inv_16x4_lib8(k, &pA[isda], sda, &pB[4+jsdb], j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4]);
				656	}
				657	if(j<n)
				658	{
				659	if(i<j) // dtrsm
				660	{
				661	kernel_sgemm_strsm_nt_rl_inv_16x4_vs_lib8(k, &pA[isda], sda, &pB[0+jsdb], j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				662	if(j<n-4) // 5 6 7
				663	{
				664	kernel_sgemm_strsm_nt_rl_inv_16x4_vs_lib8(k, &pA[isda], sda, &pB[4+jsdb], j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[(j+4)bs+(j+4)sdd], &dD[j+4], m-i, n-(j+4));
				665	}
				666	}
				667	else // dpotrf
				668	{
				669	if(j<n-15)
				670	{
				671	kernel_ssyrk_spotrf_nt_l_16x4_lib8(k, &pA[isda], sda, &pB[0+jsdb], j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0]);
				672	kernel_ssyrk_spotrf_nt_l_12x4_lib8(k, &pA[isda], sda, &pB[4+jsdb], j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4]);
				673	kernel_ssyrk_spotrf_nt_l_8x8_lib8(k, &pA[(i+8)sda], &pB[(j+8)sdb], (j+8), &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8]);
				674	}
				675	else
				676	{
				677	if(j<n-4) // 5 - 15
				678	{
				679	kernel_ssyrk_spotrf_nt_l_16x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[(j+0)sdb], (j+0), &pD[(i+0)sdd], sdd, &pD[(j+0)sdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0], m-(i+0), n-(j+0));
				680	kernel_ssyrk_spotrf_nt_l_12x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[4+(j+0)sdb], j+4, &pD[(i+0)sdd], sdd, &pD[4+(j+0)sdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4], m-(i+0), n-(j+4));
				681	if(j==n-8) // 8
				682	return;
				683	if(j<n-12) // 13 - 15
				684	{
				685	kernel_ssyrk_spotrf_nt_l_8x8_vs_lib8(k, &pA[(i+8)sda], &pB[(j+8)sdb], j+8, &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8], m-(i+8), n-(j+8));
				686	}
				687	else // 9 10 11 12
				688	{
				689	kernel_ssyrk_spotrf_nt_l_8x4_vs_lib8(k, &pA[(i+8)sda], &pB[(j+8)sdb], j+8, &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8], m-(i+8), n-(j+8));
				690	}
				691	}
				692	else // 1 2 3 4
				693	{
				694	kernel_ssyrk_spotrf_nt_l_16x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[jsdb], j, &pD[(i+0)sdd], sdd, &pD[jsdd], &pC[jbs+jsdc], sdc, &pD[jbs+jsdd], sdd, &dD[j], m-(i+0), n-j);
				695	}
				696	}
				697	}
				698	}
				699	}
				700	if(m>i)
				701	{
				702	if(m-i<=8)
				703	{
				704	goto left_8;
				705	}
				706	else
				707	{
				708	goto left_16;
				709	}
				710	}
				711	#endif
				712
				713	// common return if i==m
				714	return;
				715
				716	// clean up loops definitions
				717
				718	#if defined(TARGET_X64_INTEL_HASWELL)
				719	left_24:
				720	j = 0;
				721	for(; j<i & j<n-7; j+=8)
				722	{
				723	kernel_sgemm_strsm_nt_rl_inv_24x4_vs_lib8(k, &pA[isda], sda, &pB[0+jsdb], j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				724	kernel_sgemm_strsm_nt_rl_inv_24x4_vs_lib8(k, &pA[isda], sda, &pB[4+jsdb], j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4], m-i, n-(j+4));
				725	}
				726	if(j<n)
				727	{
				728	if(j<i) // dtrsm
				729	{
				730	kernel_sgemm_strsm_nt_rl_inv_24x4_vs_lib8(k, &pA[isda], sda, &pB[0+jsdb], j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				731	if(j<n-4) // 5 6 7
				732	{
				733	kernel_sgemm_strsm_nt_rl_inv_24x4_vs_lib8(k, &pA[isda], sda, &pB[4+jsdb], j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4], m-i, n-(j+4));
				734	}
				735	}
				736	else // dpotrf
				737	{
				738	if(j<n-4) // 5 - 23
				739	{
				740	kernel_ssyrk_spotrf_nt_l_24x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[(j+0)sdb], (j+0), &pD[(i+0)sdd], sdd, &pD[(j+0)sdd], &pC[(j+0)bs+(j+0)sdc], sdc, &pD[(j+0)bs+(j+0)sdd], sdd, &dD[j+0], m-(i+0), n-(j+0));
				741	kernel_ssyrk_spotrf_nt_l_20x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[4+(j+0)sdb], (j+4), &pD[(i+0)sdd], sdd, &pD[4+(j+0)sdd], &pC[(j+4)bs+(j+0)sdc], sdc, &pD[(j+4)bs+(j+0)sdd], sdd, &dD[j+4], m-(i+0), n-(j+4));
				742	if(j>=n-8)
				743	return;
				744	if(j<n-12) // 13 - 23
				745	{
				746	kernel_ssyrk_spotrf_nt_l_16x4_vs_lib8(k, &pA[(i+8)sda], sda, &pB[(j+8)sdb], (j+8), &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8], m-(i+8), n-(j+8));
				747	kernel_ssyrk_spotrf_nt_l_12x4_vs_lib8(k, &pA[(i+8)sda], sda, &pB[4+(j+8)sdb], j+12, &pD[(i+8)sdd], sdd, &pD[4+(j+8)sdd], &pC[(j+12)bs+(j+8)sdc], sdc, &pD[(j+12)bs+(j+8)sdd], sdd, &dD[j+12], m-(i+8), n-(j+12));
				748	if(j>=n-16)
				749	return;
				750	if(j<n-20) // 21 - 23
				751	{
				752	kernel_ssyrk_spotrf_nt_l_8x8_vs_lib8(k, &pA[(i+16)sda], &pB[(j+16)sdb], j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16], m-(i+16), n-(j+16));
				753	}
				754	else // 17 18 19 20
				755	{
				756	kernel_ssyrk_spotrf_nt_l_8x4_vs_lib8(k, &pA[(i+16)sda], &pB[(j+16)sdb], j+16, &pD[(i+16)sdd], &pD[(j+16)sdd], &pC[(j+16)bs+(j+16)sdc], &pD[(j+16)bs+(j+16)sdd], &dD[j+16], m-(i+16), n-(j+16));
				757	}
				758	}
				759	else // 9 10 11 12
				760	{
				761	kernel_ssyrk_spotrf_nt_l_16x4_vs_lib8(k, &pA[(i+8)sda], sda, &pB[(j+8)sdb], j+8, &pD[(i+8)sdd], sdd, &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], sdc, &pD[(j+8)bs+(j+8)sdd], sdd, &dD[j+8], m-(i+8), n-(j+8));
				762	}
				763	}
				764	else // 1 2 3 4
				765	{
				766	kernel_ssyrk_spotrf_nt_l_24x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[jsdb], j, &pD[(i+0)sdd], sdd, &pD[jsdd], &pC[jbs+jsdc], sdc, &pD[jbs+jsdd], sdd, &dD[j], m-(i+0), n-j);
				767	}
				768	}
				769	}
				770	return;
				771	#endif
				772
				773	left_16:
				774	j = 0;
				775	for(; j<i & j<n-7; j+=8)
				776	{
				777	kernel_sgemm_strsm_nt_rl_inv_16x4_vs_lib8(k, &pA[isda], sda, &pB[0+jsdb], j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[0+(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				778	kernel_sgemm_strsm_nt_rl_inv_16x4_vs_lib8(k, &pA[isda], sda, &pB[4+jsdb], j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4], m-i, n-(j+4));
				779	}
				780	if(j<n)
				781	{
				782	if(j<i) // dtrsm
				783	{
				784	kernel_sgemm_strsm_nt_rl_inv_16x4_vs_lib8(k, &pA[isda], sda, &pB[0+jsdb], j+0, &pD[isdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+isdc], sdc, &pD[(j+0)bs+isdd], sdd, &pD[(j+0)bs+(j+0)sdd], &dD[j+0], m-i, n-(j+0));
				785	if(j<n-4) // 5 6 7
				786	{
				787	kernel_sgemm_strsm_nt_rl_inv_16x4_vs_lib8(k, &pA[isda], sda, &pB[4+jsdb], j+4, &pD[isdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+isdc], sdc, &pD[(j+4)bs+isdd], sdd, &pD[4+(j+4)bs+(j+0)sdd], &dD[j+4], m-i, n-(j+4));
				788	}
				789	}
				790	else // dpotrf
				791	{
				792	if(j<n-4) // 5 - 15
				793	{
				794	kernel_ssyrk_spotrf_nt_l_16x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[0+jsdb], j+0, &pD[(i+0)sdd], sdd, &pD[0+jsdd], &pC[(j+0)bs+jsdc], sdc, &pD[(j+0)bs+jsdd], sdd, &dD[j+0], m-(i+0), n-(j+0));
				795	kernel_ssyrk_spotrf_nt_l_12x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[4+jsdb], j+4, &pD[(i+0)sdd], sdd, &pD[4+jsdd], &pC[(j+4)bs+jsdc], sdc, &pD[(j+4)bs+jsdd], sdd, &dD[j+4], m-(i+0), n-(j+4));
				796	if(j>=n-8)
				797	return;
				798	if(j<n-12) // 13 - 15
				799	{
				800	kernel_ssyrk_spotrf_nt_l_8x8_vs_lib8(k, &pA[(i+8)sda], &pB[(j+8)sdb], (j+8), &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8], m-(i+8), n-(j+8));
				801	}
				802	else // 9 - 12
				803	{
				804	kernel_ssyrk_spotrf_nt_l_8x4_vs_lib8(k, &pA[(i+8)sda], &pB[(j+8)sdb], j+8, &pD[(i+8)sdd], &pD[(j+8)sdd], &pC[(j+8)bs+(j+8)sdc], &pD[(j+8)bs+(j+8)sdd], &dD[j+8], m-(i+8), n-(j+8));
				805	}
				806	}
				807	else // 1 2 3 4
				808	{
				809	kernel_ssyrk_spotrf_nt_l_16x4_vs_lib8(k, &pA[(i+0)sda], sda, &pB[jsdb], j, &pD[(i+0)sdd], sdd, &pD[jsdd], &pC[jbs+jsdc], sdc, &pD[jbs+jsdd], sdd, &dD[j], m-(i+0), n-j);
				810	}
				811	}
				812	}
				813	return;
				814
				815	left_8:
				816	j = 0;
				817	for(; j<i & j<n-7; j+=8)
				818	{
				819	kernel_sgemm_strsm_nt_rl_inv_8x8_vs_lib8(k, &pA[isda], &pB[jsdb], j, &pD[isdd], &pD[jsdd], &pC[jbs+isdc], &pD[jbs+isdd], &pD[jbs+jsdd], &dD[j], m-i, n-j);
				820	}
				821	if(j<n)
				822	{
				823	if(j<i) // dtrsm
				824	{
				825	if(j<n-4) // 5 6 7
				826	{
				827	kernel_sgemm_strsm_nt_rl_inv_8x8_vs_lib8(k, &pA[isda], &pB[jsdb], j, &pD[isdd], &pD[jsdd], &pC[jbs+isdc], &pD[jbs+isdd], &pD[jbs+jsdd], &dD[j], m-i, n-j);
				828	}
				829	else // 1 2 3 4
				830	{
				831	kernel_sgemm_strsm_nt_rl_inv_8x4_vs_lib8(k, &pA[isda], &pB[jsdb], j, &pD[isdd], &pD[jsdd], &pC[jbs+isdc], &pD[jbs+isdd], &pD[jbs+jsdd], &dD[j], m-i, n-j);
				832	}
				833	}
				834	else // dpotrf
				835	{
				836	if(j<n-4) // 5 6 7
				837	{
				838	kernel_ssyrk_spotrf_nt_l_8x8_vs_lib8(k, &pA[isda], &pB[jsdb], j, &pD[isdd], &pD[jsdd], &pC[jbs+jsdc], &pD[jbs+jsdd], &dD[j], m-i, n-j);
				839	}
				840	else // 1 2 3 4
				841	{
				842	kernel_ssyrk_spotrf_nt_l_8x4_vs_lib8(k, &pA[isda], &pB[jsdb], j, &pD[isdd], &pD[jsdd], &pC[jbs+jsdc], &pD[jbs+jsdd], &dD[j], m-i, n-j);
				843	}
				844	}
				845	}
				846	return;
				847
				848	}
				849
				850
				851
				852	int sgeqrf_work_size_libstr(int m, int n)
				853	{
				854	printf("\nsgeqrf_work_size_libstr: feature not implemented yet\n");
				855	exit(1);
				856	return 0;
				857	}
				858
				859
				860
				861	void sgeqrf_libstr(int m, int n, struct s_strmat sC, int ci, int cj, struct s_strmat sD, int di, int dj, void *work)
				862	{
				863	if(m<=0 \| n<=0)
				864	return;
				865	printf("\nsgeqrf_libstr: feature not implemented yet\n");
				866	exit(1);
				867	return;
				868	}
				869
				870
				871
				872