Commit b4b225d8 authored by Martin Storsjö's avatar Martin Storsjö
Browse files

arm32: itx: Add a NEON implementation of itx for 10 bpc

Relative speedup vs C for a few functions:

                                      Cortex A7     A8     A9    A53    A72    A73
inv_txfm_add_4x4_dct_dct_0_10bpc_neon:     2.79   5.08   2.99   2.83   3.49   4.44
inv_txfm_add_4x4_dct_dct_1_10bpc_neon:     5.74   9.43   5.72   7.19   6.73   6.92
inv_txfm_add_8x8_dct_dct_0_10bpc_neon:     3.13   3.68   2.79   3.25   3.21   3.33
inv_txfm_add_8x8_dct_dct_1_10bpc_neon:     7.09  10.41   7.00  10.55   8.06   9.02
inv_txfm_add_16x16_dct_dct_0_10bpc_neon:   5.01   6.76   4.56   5.58   5.52   2.97
inv_txfm_add_16x16_dct_dct_1_10bpc_neon:   8.62  12.48  13.71  11.75  15.94  16.86
inv_txfm_add_16x16_dct_dct_2_10bpc_neon:   6.05   8.81   6.13   8.18   7.90  12.27
inv_txfm_add_32x32_dct_dct_0_10bpc_neon:   2.90   3.90   2.16   2.63   3.56   2.74
inv_txfm_add_32x32_dct_dct_1_10bpc_neon:  13.57  17.00  13.30  13.76  14.54  17.08
inv_txfm_add_32x32_dct_dct_2_10bpc_neon:   8.29  10.54   8.05  10.68  12.75  14.36
inv_txfm_add_32x32_dct_dct_3_10bpc_neon:   6.78   8.40   7.60  10.12   8.97  12.96
inv_txfm_add_32x32_dct_dct_4_10bpc_neon:   6.48   6.74   6.00   7.38   7.67   9.70
inv_txfm_add_64x64_dct_dct_0_10bpc_neon:   3.02   4.59   2.21   2.65   3.36   2.47
inv_txfm_add_64x64_dct_dct_1_10bpc_neon:   9.86  11.30   9.14  13.80  12.46  14.83
inv_txfm_add_64x64_dct_dct_2_10bpc_neon:   8.65   9.76   7.60  12.05  10.55  12.62
inv_txfm_add_64x64_dct_dct_3_10bpc_neon:   7.78   8.65   6.98  10.63   9.15  11.73
inv_txfm_add_64x64_dct_dct_4_10bpc_neon:   6.61   7.01   5.52   8.41   8.33   9.69
parent 7f5b334b
Pipeline #71229 passed with stages
in 5 minutes and 7 seconds
/******************************************************************************
* Copyright © 2018, VideoLAN and dav1d authors
* Copyright © 2020, Martin Storsjo
* All rights reserved.
*
* Redistribution and use in source and binary forms, with or without
* modification, are permitted provided that the following conditions are met:
*
* 1. Redistributions of source code must retain the above copyright notice, this
* list of conditions and the following disclaimer.
*
* 2. Redistributions in binary form must reproduce the above copyright notice,
* this list of conditions and the following disclaimer in the documentation
* and/or other materials provided with the distribution.
*
* THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
* ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
* WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
* DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR
* ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
* (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
* LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
* ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
* (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
* SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*****************************************************************************/
#include "src/arm/asm.S"
#include "util.S"
// The exported functions in this file have got the following signature:
// void itxfm_add(pixel *dst, ptrdiff_t dst_stride, coef *coeff, int eob);
// Most of the functions use the following register layout:
// r0-r3 external parameters
// r4 function pointer to first transform
// r5 function pointer to second transform
// r6 output parameter for helper function
// r7 input parameter for helper function
// r8 input stride for helper function
// r9 scratch variable for helper functions
// r10-r11 pointer to list of eob thresholds, eob threshold value,
// scratch variables within helper functions (backed up)
// The SIMD registers most often use the following layout:
// d0-d3 multiplication coefficients
// d4-d7 scratch registers
// d8-d15 unused in some transforms, used for scratch registers in others
// d16-v31 inputs/outputs of transforms
// Potential further optimizations, that are left unimplemented for now:
// - Trying to keep multiplication coefficients in registers across multiple
// transform functions. (The register layout is designed to potentially
// allow this.)
// - Use a simplified version of the transforms themselves for cases where
// we know a significant number of inputs are zero. E.g. if the eob value
// indicates only a quarter of input values are set, for idct16 and up,
// a significant amount of calculation can be skipped, at the cost of more
// code duplication and special casing.
// A macro for cases where a thumb mov can express the constant in one
// instruction, while arm mode requires two separate movw+movt pairs.
.macro mov_const reg, val
#if CONFIG_THUMB
mov.w \reg, #\val
#else
movw \reg, #((\val) & 0xffff)
movt \reg, #(((\val) >> 16) & 0xffff)
#endif
.endm
const idct_coeffs, align=4
// idct4
.int 2896, 2896*8*(1<<16), 1567, 3784
// idct8
.int 799, 4017, 3406, 2276
// idct16
.int 401, 4076, 3166, 2598
.int 1931, 3612, 3920, 1189
// idct32
.int 201, 4091, 3035, 2751
.int 1751, 3703, 3857, 1380
.int 995, 3973, 3513, 2106
.int 2440, 3290, 4052, 601
endconst
const idct64_coeffs, align=4
.int 101*8*(1<<16), 4095*8*(1<<16), 2967*8*(1<<16), -2824*8*(1<<16)
.int 1660*8*(1<<16), 3745*8*(1<<16), 3822*8*(1<<16), -1474*8*(1<<16)
.int 4076, 401, 4017, 799
.int 4036*8*(1<<16), -700*8*(1<<16), 2359*8*(1<<16), 3349*8*(1<<16)
.int 3461*8*(1<<16), -2191*8*(1<<16), 897*8*(1<<16), 3996*8*(1<<16)
.int -3166, -2598, -799, -4017
.int 501*8*(1<<16), 4065*8*(1<<16), 3229*8*(1<<16), -2520*8*(1<<16)
.int 2019*8*(1<<16), 3564*8*(1<<16), 3948*8*(1<<16), -1092*8*(1<<16)
.int 3612, 1931, 2276, 3406
.int 4085*8*(1<<16), -301*8*(1<<16), 2675*8*(1<<16), 3102*8*(1<<16)
.int 3659*8*(1<<16), -1842*8*(1<<16), 1285*8*(1<<16), 3889*8*(1<<16)
.int -3920, -1189, -3406, -2276
endconst
const iadst4_coeffs, align=4
.int 1321, 3803, 2482, 3344
endconst
const iadst8_coeffs, align=4
.int 4076, 401, 3612, 1931
.int 2598, 3166, 1189, 3920
// idct_coeffs
.int 2896, 0, 1567, 3784
endconst
const iadst16_coeffs, align=4
.int 4091, 201, 3973, 995
.int 3703, 1751, 3290, 2440
.int 2751, 3035, 2106, 3513
.int 1380, 3857, 601, 4052
endconst
.macro vmul_vmla d0, s0, s1, c0, c1
vmul.i32 \d0, \s0, \c0
vmla.i32 \d0, \s1, \c1
.endm
.macro vmul_vmls d0, s0, s1, c0, c1
vmul.i32 \d0, \s0, \c0
vmls.i32 \d0, \s1, \c1
.endm
.macro scale_input c, r0, r1, r2 r3, r4, r5, r6, r7
vqrdmulh.s32 \r0, \r0, \c
vqrdmulh.s32 \r1, \r1, \c
.ifnb \r2
vqrdmulh.s32 \r2, \r2, \c
vqrdmulh.s32 \r3, \r3, \c
.endif
.ifnb \r4
vqrdmulh.s32 \r4, \r4, \c
vqrdmulh.s32 \r5, \r5, \c
vqrdmulh.s32 \r6, \r6, \c
vqrdmulh.s32 \r7, \r7, \c
.endif
.endm
.macro load_add_store load, shift, addsrc, adddst, max, min, store, dst, src, shiftbits=4
.ifnb \load
vld1.16 {\load}, [\src, :128], r1
.endif
.ifnb \shift
vrshr.s16 \shift, \shift, #\shiftbits
.endif
.ifnb \addsrc
vqadd.s16 \adddst, \adddst, \addsrc
.endif
.ifnb \max
vmax.s16 \max, \max, q6
.endif
.ifnb \min
vmin.s16 \min, \min, q7
.endif
.ifnb \store
vst1.16 {\store}, [\dst, :128], r1
.endif
.endm
.macro load_add_store_8x8 dst, src, shiftbits=4
mov \src, \dst
vmov.i16 q6, #0
vmvn.i16 q7, #0xfc00 // 0x3ff
load_add_store q0, q8, , , , , , \dst, \src, \shiftbits
load_add_store q1, q9, , , , , , \dst, \src, \shiftbits
load_add_store q2, q10, q0, q8, , , , \dst, \src, \shiftbits
load_add_store q3, q11, q1, q9, q8, , , \dst, \src, \shiftbits
load_add_store q4, q12, q2, q10, q9, q8, , \dst, \src, \shiftbits
load_add_store q5, q13, q3, q11, q10, q9, q8, \dst, \src, \shiftbits
load_add_store q0, q14, q4, q12, q11, q10, q9, \dst, \src, \shiftbits
load_add_store q1, q15, q5, q13, q12, q11, q10, \dst, \src, \shiftbits
load_add_store , , q0, q14, q13, q12, q11, \dst, \src, \shiftbits
load_add_store , , q1, q15, q14, q13, q12, \dst, \src, \shiftbits
load_add_store , , , , q15, q14, q13, \dst, \src, \shiftbits
load_add_store , , , , , q15, q14, \dst, \src, \shiftbits
load_add_store , , , , , , q15, \dst, \src, \shiftbits
.endm
.macro load_add_store_8x4 dst, src, shiftbits=4
mov \src, \dst
vmov.i16 q6, #0
vmvn.i16 q7, #0xfc00 // 0x3ff
load_add_store q0, q8, , , , , , \dst, \src, \shiftbits
load_add_store q1, q9, , , , , , \dst, \src, \shiftbits
load_add_store q2, q10, q0, q8, , , , \dst, \src, \shiftbits
load_add_store q3, q11, q1, q9, q8, , , \dst, \src, \shiftbits
load_add_store , , q2, q10, q9, q8, , \dst, \src, \shiftbits
load_add_store , , q3, q11, q10, q9, q8, \dst, \src, \shiftbits
load_add_store , , , , q11, q10, q9, \dst, \src, \shiftbits
load_add_store , , , , , q11, q10, \dst, \src, \shiftbits
load_add_store , , , , , , q11, \dst, \src, \shiftbits
.endm
.macro load_add_store4 load1, load2, shift, addsrc, adddst, max, min, store1, store2, dst, src, shiftbits=4
.ifnb \load1
vld1.16 {\load1}, [\src, :64], r1
.endif
.ifnb \shift
vrshr.s16 \shift, \shift, #\shiftbits
.endif
.ifnb \load2
vld1.16 {\load2}, [\src, :64], r1
.endif
.ifnb \addsrc
vqadd.s16 \adddst, \adddst, \addsrc
.endif
.ifnb \max
vmax.s16 \max, \max, q6
.endif
.ifnb \store1
vst1.16 {\store1}, [\dst, :64], r1
.endif
.ifnb \min
vmin.s16 \min, \min, q7
.endif
.ifnb \store2
vst1.16 {\store2}, [\dst, :64], r1
.endif
.endm
.macro load_add_store_4x16 dst, src
mov \src, \dst
vmov.i16 q6, #0
vmvn.i16 q7, #0xfc00 // 0x3ff
mov \src, \dst
load_add_store4 d0, d1, q8, , , , , , , \dst, \src
load_add_store4 d2, d3, q9, , , , , , , \dst, \src
load_add_store4 d4, d5, q10, q0, q8, , , , , \dst, \src
load_add_store4 d6, d7, q11, q1, q9, q8, , , , \dst, \src
load_add_store4 d8, d9, q12, q2, q10, q9, q8, , , \dst, \src
load_add_store4 d10, d11, q13, q3, q11, q10, q9, d16, d17, \dst, \src
load_add_store4 d0, d1, q14, q4, q12, q11, q10, d18, d19, \dst, \src
load_add_store4 d2, d3, q15, q5, q13, q12, q11, d20, d21, \dst, \src
load_add_store4 , , , q0, q14, q13, q12, d22, d23, \dst, \src
load_add_store4 , , , q1, q15, q14, q13, d24, d25, \dst, \src
load_add_store4 , , , , , q15, q14, d26, d27, \dst, \src
load_add_store4 , , , , , , q15, d28, d29, \dst, \src
load_add_store4 , , , , , , , d30, d31, \dst, \src
.endm
.macro load_add_store_4x8 dst, src, shiftbits=4
mov \src, \dst
vmov.i16 q6, #0
vmvn.i16 q7, #0xfc00 // 0x3ff
mov \src, \dst
load_add_store4 d0, d1, q8, , , , , , , \dst, \src, \shiftbits
load_add_store4 d2, d3, q9, , , , , , , \dst, \src, \shiftbits
load_add_store4 d4, d5, q10, q0, q8, , , , , \dst, \src, \shiftbits
load_add_store4 d6, d7, q11, q1, q9, q8, , , , \dst, \src, \shiftbits
load_add_store4 , , , q2, q10, q9, q8, , , \dst, \src, \shiftbits
load_add_store4 , , , q3, q11, q10, q9, d16, d17, \dst, \src, \shiftbits
load_add_store4 , , , , , q11, q10, d18, d19, \dst, \src, \shiftbits
load_add_store4 , , , , , , q11, d20, d21, \dst, \src, \shiftbits
load_add_store4 , , , , , , , d22, d23, \dst, \src, \shiftbits
.endm
.macro load_add_store_4x4 dst, src, shiftbits=4
mov \src, \dst
vmov.i16 q6, #0
vmvn.i16 q7, #0xfc00 // 0x3ff
mov \src, \dst
load_add_store4 d0, d1, q8, , , , , , , \dst, \src, \shiftbits
load_add_store4 d2, d3, q9, q0, q8, , , , , \dst, \src, \shiftbits
load_add_store4 , , , q1, q9, q8, , , , \dst, \src, \shiftbits
load_add_store4 , , , , , q9, q8, , , \dst, \src, \shiftbits
load_add_store4 , , , , , , q9, d16, d17, \dst, \src, \shiftbits
load_add_store4 , , , , , , , d18, d19, \dst, \src, \shiftbits
.endm
.macro idct_dc w, h, shift
cmp r3, #0
bne 1f
vmov.i16 q14, #0
mov_const r12, 2896*8*(1<<16)
vld1.32 {d24[], d25[]}, [r2, :32]
vdup.32 d0, r12
vqrdmulh.s32 q13, q12, d0[0]
vst1.32 {d28[0]}, [r2, :32]
.if (\w == 2*\h) || (2*\w == \h)
vqrdmulh.s32 q13, q13, d0[0]
.endif
.if \shift > 0
vqrshrn.s32 d24, q13, #\shift
vqrshrn.s32 d25, q13, #\shift
.else
vqmovn.s32 d24, q13
vqmovn.s32 d25, q13
.endif
vqrdmulh.s16 q12, q12, d0[1]
mov r3, #\h
vrshr.s16 q12, q12, #4
b idct_dc_w\w\()_neon
1:
.endm
function idct_dc_w4_neon
vmvn.i16 q15, #0xfc00 // 0x3ff
1:
vld1.16 {d0}, [r0, :64], r1
vld1.16 {d1}, [r0, :64], r1
vld1.16 {d2}, [r0, :64], r1
vld1.16 {d3}, [r0, :64], r1
subs r3, r3, #4
vqadd.s16 q0, q0, q12
sub r0, r0, r1, lsl #2
vqadd.s16 q1, q1, q12
vmax.s16 q0, q0, q14
vmax.s16 q1, q1, q14
vmin.s16 q0, q0, q15
vst1.16 {d0}, [r0, :64], r1
vmin.s16 q1, q1, q15
vst1.16 {d1}, [r0, :64], r1
vst1.16 {d2}, [r0, :64], r1
vst1.16 {d3}, [r0, :64], r1
bgt 1b
bx lr
endfunc
function idct_dc_w8_neon
vmvn.i16 q15, #0xfc00 // 0x3ff
1:
vld1.16 {q0}, [r0, :128], r1
subs r3, r3, #4
vld1.16 {q1}, [r0, :128], r1
vqadd.s16 q0, q0, q12
vld1.16 {q2}, [r0, :128], r1
vqadd.s16 q1, q1, q12
vld1.16 {q3}, [r0, :128], r1
vqadd.s16 q2, q2, q12
vqadd.s16 q3, q3, q12
sub r0, r0, r1, lsl #2
vmax.s16 q0, q0, q14
vmax.s16 q1, q1, q14
vmax.s16 q2, q2, q14
vmax.s16 q3, q3, q14
vmin.s16 q0, q0, q15
vmin.s16 q1, q1, q15
vst1.16 {q0}, [r0, :128], r1
vmin.s16 q2, q2, q15
vst1.16 {q1}, [r0, :128], r1
vmin.s16 q3, q3, q15
vst1.16 {q2}, [r0, :128], r1
vst1.16 {q3}, [r0, :128], r1
bgt 1b
bx lr
endfunc
function idct_dc_w16_neon
vmvn.i16 q15, #0xfc00 // 0x3ff
1:
vld1.16 {q0, q1}, [r0, :128], r1
subs r3, r3, #2
vld1.16 {q2, q3}, [r0, :128], r1
vqadd.s16 q0, q0, q12
vqadd.s16 q1, q1, q12
vqadd.s16 q2, q2, q12
vqadd.s16 q3, q3, q12
sub r0, r0, r1, lsl #1
vmax.s16 q0, q0, q14
vmax.s16 q1, q1, q14
vmax.s16 q2, q2, q14
vmax.s16 q3, q3, q14
vmin.s16 q0, q0, q15
vmin.s16 q1, q1, q15
vmin.s16 q2, q2, q15
vst1.16 {q0, q1}, [r0, :128], r1
vmin.s16 q3, q3, q15
vst1.16 {q2, q3}, [r0, :128], r1
bgt 1b
bx lr
endfunc
function idct_dc_w32_neon
sub r1, r1, #32
vmvn.i16 q15, #0xfc00 // 0x3ff
1:
vld1.16 {q0, q1}, [r0, :128]!
subs r3, r3, #1
vld1.16 {q2, q3}, [r0, :128]
vqadd.s16 q0, q0, q12
vqadd.s16 q1, q1, q12
vqadd.s16 q2, q2, q12
vqadd.s16 q3, q3, q12
sub r0, r0, #32
vmax.s16 q0, q0, q14
vmax.s16 q1, q1, q14
vmax.s16 q2, q2, q14
vmax.s16 q3, q3, q14
vmin.s16 q0, q0, q15
vmin.s16 q1, q1, q15
vmin.s16 q2, q2, q15
vst1.16 {q0, q1}, [r0, :128]!
vmin.s16 q3, q3, q15
vst1.16 {q2, q3}, [r0, :128], r1
bgt 1b
bx lr
endfunc
function idct_dc_w64_neon
sub r1, r1, #96
vmvn.i16 q15, #0xfc00 // 0x3ff
1:
vld1.16 {q0, q1}, [r0, :128]!
subs r3, r3, #1
vld1.16 {q2, q3}, [r0, :128]!
vqadd.s16 q0, q0, q12
vld1.16 {q8, q9}, [r0, :128]!
vqadd.s16 q1, q1, q12
vld1.16 {q10, q11}, [r0, :128]
vqadd.s16 q2, q2, q12
vqadd.s16 q3, q3, q12
vqadd.s16 q8, q8, q12
vqadd.s16 q9, q9, q12
vqadd.s16 q10, q10, q12
vqadd.s16 q11, q11, q12
sub r0, r0, #96
vmax.s16 q0, q0, q14
vmax.s16 q1, q1, q14
vmax.s16 q2, q2, q14
vmax.s16 q3, q3, q14
vmax.s16 q8, q8, q14
vmax.s16 q9, q9, q14
vmax.s16 q10, q10, q14
vmax.s16 q11, q11, q14
vmin.s16 q0, q0, q15
vmin.s16 q1, q1, q15
vmin.s16 q2, q2, q15
vmin.s16 q3, q3, q15
vmin.s16 q8, q8, q15
vst1.16 {q0, q1}, [r0, :128]!
vmin.s16 q9, q9, q15
vst1.16 {q2, q3}, [r0, :128]!
vmin.s16 q10, q10, q15
vst1.16 {q8, q9}, [r0, :128]!
vmin.s16 q11, q11, q15
vst1.16 {q10, q11}, [r0, :128], r1
bgt 1b
bx lr
endfunc
.macro iwht4
vadd.i32 q8, q8, q9
vsub.i32 q13, q10, q11
vsub.i32 q12, q8, q13
vshr.s32 q12, q12, #1
vsub.i32 q10, q12, q9
vsub.i32 q9, q12, q11
vadd.i32 q11, q13, q10
vsub.i32 q8, q8, q9
.endm
.macro idct_4s_x4 r0, r1, r2, r3
vmul_vmla q4, \r1, \r3, d1[1], d1[0]
vmul_vmla q2, \r0, \r2, d0[0], d0[0]
vmul_vmls q3, \r1, \r3, d1[0], d1[1]
vmul_vmls q5, \r0, \r2, d0[0], d0[0]
vrshr.s32 q4, q4, #12
vrshr.s32 q2, q2, #12
vrshr.s32 q3, q3, #12
vrshr.s32 q5, q5, #12
vqadd.s32 \r0, q2, q4
vqsub.s32 \r3, q2, q4
vqadd.s32 \r1, q5, q3
vqsub.s32 \r2, q5, q3
.endm
.macro idct_2s_x4 r0, r1, r2, r3
vmul_vmla d6, \r1, \r3, d1[1], d1[0]
vmul_vmla d4, \r0, \r2, d0[0], d0[0]
vmul_vmls d5, \r1, \r3, d1[0], d1[1]
vmul_vmls d7, \r0, \r2, d0[0], d0[0]
vrshr.s32 d6, d6, #12
vrshr.s32 d4, d4, #12
vrshr.s32 d5, d5, #12
vrshr.s32 d7, d7, #12
vqadd.s32 \r0, d4, d6
vqsub.s32 \r3, d4, d6
vqadd.s32 \r1, d7, d5
vqsub.s32 \r2, d7, d5
.endm
function inv_dct_4s_x4_neon
movrel_local r12, idct_coeffs
vld1.32 {d0, d1}, [r12, :128]
idct_4s_x4 q8, q9, q10, q11
bx lr
endfunc
.macro iadst_4x4 o0, o1, o2, o3
movrel_local r12, iadst4_coeffs
vld1.32 {d0, d1}, [r12, :128]
vsub.i32 q1, q8, q10
vmul.i32 q2, q8, d0[0]
vmla.i32 q2, q10, d0[1]
vmla.i32 q2, q11, d1[0]
vmul.i32 q4, q9, d1[1]
vadd.i32 q1, q1, q11
vmul.i32 q3, q8, d1[0]
vmls.i32 q3, q10, d0[0]
vmls.i32 q3, q11, d0[1]
vadd.i32 \o3, q2, q3
vmul.i32 \o2, q1, d1[1]
vadd.i32 \o0, q2, q4
vadd.i32 \o1, q3, q4
vsub.i32 \o3, \o3, q4
vrshr.s32 \o0, \o0, #12
vrshr.s32 \o2, \o2, #12
vrshr.s32 \o1, \o1, #12
vrshr.s32 \o3, \o3, #12
.endm
function inv_adst_4s_x4_neon
iadst_4x4 q8, q9, q10, q11
bx lr
endfunc
function inv_flipadst_4s_x4_neon
iadst_4x4 q11, q10, q9, q8
bx lr
endfunc
function inv_identity_4s_x4_neon
mov r12, #0
movt r12, #(5793-4096)*8
vdup.32 d0, r12
vqrdmulh.s32 q1, q8, d0[0]
vqrdmulh.s32 q2, q9, d0[0]
vqrdmulh.s32 q3, q10, d0[0]
vqrdmulh.s32 q4, q11, d0[0]
vqadd.s32 q8, q8, q1
vqadd.s32 q9, q9, q2
vqadd.s32 q10, q10, q3
vqadd.s32 q11, q11, q4
bx lr
endfunc
function inv_txfm_add_wht_wht_4x4_16bpc_neon, export=1
push {r4-r5,lr}
vpush {q4-q5}
vmov.i16 q14, #0
vmov.i16 q15, #0
vld1.32 {q8, q9}, [r2, :128]
vst1.32 {q14, q15}, [r2, :128]!
vshr.s16 q8, q8, #2
vld1.32 {q10, q11}, [r2, :128]
vshr.s16 q9, q9, #2
vshr.s16 q10, q10, #2
vshr.s16 q11, q11, #2
iwht4
vst1.32 {q14, q15}, [r2, :128]
transpose_4x4s q8, q9, q10, q11, d16, d17, d18, d19, d20, d21, d22, d23
iwht4
vld1.16 {d0}, [r0, :64], r1
vqmovn.s32 d16, q8
vld1.16 {d1}, [r0, :64], r1
vqmovn.s32 d17, q9
vld1.16 {d2}, [r0, :64], r1
vqmovn.s32 d18, q10
vld1.16 {d3}, [r0, :64], r1
vqmovn.s32 d19, q11
b L(itx_4x4_end)
endfunc
function inv_txfm_add_4x4_neon
vmov.i16 q14, #0
vmov.i16 q15, #0
vld1.32 {q8, q9}, [r2, :128]
vst1.16 {q14, q15}, [r2, :128]!
vld1.32 {q10, q11}, [r2, :128]
vst1.16 {q14, q15}, [r2, :128]