d2eca20d77
Building a multi-arch kernel results in: arch/arm/crypto/built-in.o: In function `aesbs_xts_decrypt': sha1_glue.c:(.text+0x15c8): undefined reference to `bsaes_xts_decrypt' arch/arm/crypto/built-in.o: In function `aesbs_xts_encrypt': sha1_glue.c:(.text+0x1664): undefined reference to `bsaes_xts_encrypt' arch/arm/crypto/built-in.o: In function `aesbs_ctr_encrypt': sha1_glue.c:(.text+0x184c): undefined reference to `bsaes_ctr32_encrypt_blocks' arch/arm/crypto/built-in.o: In function `aesbs_cbc_decrypt': sha1_glue.c:(.text+0x19b4): undefined reference to `bsaes_cbc_encrypt' This code is already runtime-conditional on NEON being supported, so there's no point compiling it out depending on the minimum build architecture. Acked-by: Ard Biesheuvel <ard.biesheuvel@linaro.org> Signed-off-by: Russell King <rmk+kernel@arm.linux.org.uk>
2544 lines
52 KiB
Text
2544 lines
52 KiB
Text
|
|
@ ====================================================================
|
|
@ Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
|
|
@ project. The module is, however, dual licensed under OpenSSL and
|
|
@ CRYPTOGAMS licenses depending on where you obtain it. For further
|
|
@ details see http://www.openssl.org/~appro/cryptogams/.
|
|
@
|
|
@ Specific modes and adaptation for Linux kernel by Ard Biesheuvel
|
|
@ <ard.biesheuvel@linaro.org>. Permission to use under GPL terms is
|
|
@ granted.
|
|
@ ====================================================================
|
|
|
|
@ Bit-sliced AES for ARM NEON
|
|
@
|
|
@ February 2012.
|
|
@
|
|
@ This implementation is direct adaptation of bsaes-x86_64 module for
|
|
@ ARM NEON. Except that this module is endian-neutral [in sense that
|
|
@ it can be compiled for either endianness] by courtesy of vld1.8's
|
|
@ neutrality. Initial version doesn't implement interface to OpenSSL,
|
|
@ only low-level primitives and unsupported entry points, just enough
|
|
@ to collect performance results, which for Cortex-A8 core are:
|
|
@
|
|
@ encrypt 19.5 cycles per byte processed with 128-bit key
|
|
@ decrypt 22.1 cycles per byte processed with 128-bit key
|
|
@ key conv. 440 cycles per 128-bit key/0.18 of 8x block
|
|
@
|
|
@ Snapdragon S4 encrypts byte in 17.6 cycles and decrypts in 19.7,
|
|
@ which is [much] worse than anticipated (for further details see
|
|
@ http://www.openssl.org/~appro/Snapdragon-S4.html).
|
|
@
|
|
@ Cortex-A15 manages in 14.2/16.1 cycles [when integer-only code
|
|
@ manages in 20.0 cycles].
|
|
@
|
|
@ When comparing to x86_64 results keep in mind that NEON unit is
|
|
@ [mostly] single-issue and thus can't [fully] benefit from
|
|
@ instruction-level parallelism. And when comparing to aes-armv4
|
|
@ results keep in mind key schedule conversion overhead (see
|
|
@ bsaes-x86_64.pl for further details)...
|
|
@
|
|
@ <appro@openssl.org>
|
|
|
|
@ April-August 2013
|
|
@
|
|
@ Add CBC, CTR and XTS subroutines, adapt for kernel use.
|
|
@
|
|
@ <ard.biesheuvel@linaro.org>
|
|
|
|
#ifndef __KERNEL__
|
|
# include "arm_arch.h"
|
|
|
|
# define VFP_ABI_PUSH vstmdb sp!,{d8-d15}
|
|
# define VFP_ABI_POP vldmia sp!,{d8-d15}
|
|
# define VFP_ABI_FRAME 0x40
|
|
#else
|
|
# define VFP_ABI_PUSH
|
|
# define VFP_ABI_POP
|
|
# define VFP_ABI_FRAME 0
|
|
# define BSAES_ASM_EXTENDED_KEY
|
|
# define XTS_CHAIN_TWEAK
|
|
# define __ARM_ARCH__ 7
|
|
#endif
|
|
|
|
#ifdef __thumb__
|
|
# define adrl adr
|
|
#endif
|
|
|
|
#if __ARM_ARCH__>=7
|
|
.text
|
|
.syntax unified @ ARMv7-capable assembler is expected to handle this
|
|
#ifdef __thumb2__
|
|
.thumb
|
|
#else
|
|
.code 32
|
|
#endif
|
|
|
|
.fpu neon
|
|
|
|
.type _bsaes_decrypt8,%function
|
|
.align 4
|
|
_bsaes_decrypt8:
|
|
adr r6,_bsaes_decrypt8
|
|
vldmia r4!, {q9} @ round 0 key
|
|
add r6,r6,#.LM0ISR-_bsaes_decrypt8
|
|
|
|
vldmia r6!, {q8} @ .LM0ISR
|
|
veor q10, q0, q9 @ xor with round0 key
|
|
veor q11, q1, q9
|
|
vtbl.8 d0, {q10}, d16
|
|
vtbl.8 d1, {q10}, d17
|
|
veor q12, q2, q9
|
|
vtbl.8 d2, {q11}, d16
|
|
vtbl.8 d3, {q11}, d17
|
|
veor q13, q3, q9
|
|
vtbl.8 d4, {q12}, d16
|
|
vtbl.8 d5, {q12}, d17
|
|
veor q14, q4, q9
|
|
vtbl.8 d6, {q13}, d16
|
|
vtbl.8 d7, {q13}, d17
|
|
veor q15, q5, q9
|
|
vtbl.8 d8, {q14}, d16
|
|
vtbl.8 d9, {q14}, d17
|
|
veor q10, q6, q9
|
|
vtbl.8 d10, {q15}, d16
|
|
vtbl.8 d11, {q15}, d17
|
|
veor q11, q7, q9
|
|
vtbl.8 d12, {q10}, d16
|
|
vtbl.8 d13, {q10}, d17
|
|
vtbl.8 d14, {q11}, d16
|
|
vtbl.8 d15, {q11}, d17
|
|
vmov.i8 q8,#0x55 @ compose .LBS0
|
|
vmov.i8 q9,#0x33 @ compose .LBS1
|
|
vshr.u64 q10, q6, #1
|
|
vshr.u64 q11, q4, #1
|
|
veor q10, q10, q7
|
|
veor q11, q11, q5
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q7, q7, q10
|
|
vshl.u64 q10, q10, #1
|
|
veor q5, q5, q11
|
|
vshl.u64 q11, q11, #1
|
|
veor q6, q6, q10
|
|
veor q4, q4, q11
|
|
vshr.u64 q10, q2, #1
|
|
vshr.u64 q11, q0, #1
|
|
veor q10, q10, q3
|
|
veor q11, q11, q1
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q3, q3, q10
|
|
vshl.u64 q10, q10, #1
|
|
veor q1, q1, q11
|
|
vshl.u64 q11, q11, #1
|
|
veor q2, q2, q10
|
|
veor q0, q0, q11
|
|
vmov.i8 q8,#0x0f @ compose .LBS2
|
|
vshr.u64 q10, q5, #2
|
|
vshr.u64 q11, q4, #2
|
|
veor q10, q10, q7
|
|
veor q11, q11, q6
|
|
vand q10, q10, q9
|
|
vand q11, q11, q9
|
|
veor q7, q7, q10
|
|
vshl.u64 q10, q10, #2
|
|
veor q6, q6, q11
|
|
vshl.u64 q11, q11, #2
|
|
veor q5, q5, q10
|
|
veor q4, q4, q11
|
|
vshr.u64 q10, q1, #2
|
|
vshr.u64 q11, q0, #2
|
|
veor q10, q10, q3
|
|
veor q11, q11, q2
|
|
vand q10, q10, q9
|
|
vand q11, q11, q9
|
|
veor q3, q3, q10
|
|
vshl.u64 q10, q10, #2
|
|
veor q2, q2, q11
|
|
vshl.u64 q11, q11, #2
|
|
veor q1, q1, q10
|
|
veor q0, q0, q11
|
|
vshr.u64 q10, q3, #4
|
|
vshr.u64 q11, q2, #4
|
|
veor q10, q10, q7
|
|
veor q11, q11, q6
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q7, q7, q10
|
|
vshl.u64 q10, q10, #4
|
|
veor q6, q6, q11
|
|
vshl.u64 q11, q11, #4
|
|
veor q3, q3, q10
|
|
veor q2, q2, q11
|
|
vshr.u64 q10, q1, #4
|
|
vshr.u64 q11, q0, #4
|
|
veor q10, q10, q5
|
|
veor q11, q11, q4
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q5, q5, q10
|
|
vshl.u64 q10, q10, #4
|
|
veor q4, q4, q11
|
|
vshl.u64 q11, q11, #4
|
|
veor q1, q1, q10
|
|
veor q0, q0, q11
|
|
sub r5,r5,#1
|
|
b .Ldec_sbox
|
|
.align 4
|
|
.Ldec_loop:
|
|
vldmia r4!, {q8-q11}
|
|
veor q8, q8, q0
|
|
veor q9, q9, q1
|
|
vtbl.8 d0, {q8}, d24
|
|
vtbl.8 d1, {q8}, d25
|
|
vldmia r4!, {q8}
|
|
veor q10, q10, q2
|
|
vtbl.8 d2, {q9}, d24
|
|
vtbl.8 d3, {q9}, d25
|
|
vldmia r4!, {q9}
|
|
veor q11, q11, q3
|
|
vtbl.8 d4, {q10}, d24
|
|
vtbl.8 d5, {q10}, d25
|
|
vldmia r4!, {q10}
|
|
vtbl.8 d6, {q11}, d24
|
|
vtbl.8 d7, {q11}, d25
|
|
vldmia r4!, {q11}
|
|
veor q8, q8, q4
|
|
veor q9, q9, q5
|
|
vtbl.8 d8, {q8}, d24
|
|
vtbl.8 d9, {q8}, d25
|
|
veor q10, q10, q6
|
|
vtbl.8 d10, {q9}, d24
|
|
vtbl.8 d11, {q9}, d25
|
|
veor q11, q11, q7
|
|
vtbl.8 d12, {q10}, d24
|
|
vtbl.8 d13, {q10}, d25
|
|
vtbl.8 d14, {q11}, d24
|
|
vtbl.8 d15, {q11}, d25
|
|
.Ldec_sbox:
|
|
veor q1, q1, q4
|
|
veor q3, q3, q4
|
|
|
|
veor q4, q4, q7
|
|
veor q1, q1, q6
|
|
veor q2, q2, q7
|
|
veor q6, q6, q4
|
|
|
|
veor q0, q0, q1
|
|
veor q2, q2, q5
|
|
veor q7, q7, q6
|
|
veor q3, q3, q0
|
|
veor q5, q5, q0
|
|
veor q1, q1, q3
|
|
veor q11, q3, q0
|
|
veor q10, q7, q4
|
|
veor q9, q1, q6
|
|
veor q13, q4, q0
|
|
vmov q8, q10
|
|
veor q12, q5, q2
|
|
|
|
vorr q10, q10, q9
|
|
veor q15, q11, q8
|
|
vand q14, q11, q12
|
|
vorr q11, q11, q12
|
|
veor q12, q12, q9
|
|
vand q8, q8, q9
|
|
veor q9, q6, q2
|
|
vand q15, q15, q12
|
|
vand q13, q13, q9
|
|
veor q9, q3, q7
|
|
veor q12, q1, q5
|
|
veor q11, q11, q13
|
|
veor q10, q10, q13
|
|
vand q13, q9, q12
|
|
vorr q9, q9, q12
|
|
veor q11, q11, q15
|
|
veor q8, q8, q13
|
|
veor q10, q10, q14
|
|
veor q9, q9, q15
|
|
veor q8, q8, q14
|
|
vand q12, q4, q6
|
|
veor q9, q9, q14
|
|
vand q13, q0, q2
|
|
vand q14, q7, q1
|
|
vorr q15, q3, q5
|
|
veor q11, q11, q12
|
|
veor q9, q9, q14
|
|
veor q8, q8, q15
|
|
veor q10, q10, q13
|
|
|
|
@ Inv_GF16 0, 1, 2, 3, s0, s1, s2, s3
|
|
|
|
@ new smaller inversion
|
|
|
|
vand q14, q11, q9
|
|
vmov q12, q8
|
|
|
|
veor q13, q10, q14
|
|
veor q15, q8, q14
|
|
veor q14, q8, q14 @ q14=q15
|
|
|
|
vbsl q13, q9, q8
|
|
vbsl q15, q11, q10
|
|
veor q11, q11, q10
|
|
|
|
vbsl q12, q13, q14
|
|
vbsl q8, q14, q13
|
|
|
|
vand q14, q12, q15
|
|
veor q9, q9, q8
|
|
|
|
veor q14, q14, q11
|
|
veor q12, q5, q2
|
|
veor q8, q1, q6
|
|
veor q10, q15, q14
|
|
vand q10, q10, q5
|
|
veor q5, q5, q1
|
|
vand q11, q1, q15
|
|
vand q5, q5, q14
|
|
veor q1, q11, q10
|
|
veor q5, q5, q11
|
|
veor q15, q15, q13
|
|
veor q14, q14, q9
|
|
veor q11, q15, q14
|
|
veor q10, q13, q9
|
|
vand q11, q11, q12
|
|
vand q10, q10, q2
|
|
veor q12, q12, q8
|
|
veor q2, q2, q6
|
|
vand q8, q8, q15
|
|
vand q6, q6, q13
|
|
vand q12, q12, q14
|
|
vand q2, q2, q9
|
|
veor q8, q8, q12
|
|
veor q2, q2, q6
|
|
veor q12, q12, q11
|
|
veor q6, q6, q10
|
|
veor q5, q5, q12
|
|
veor q2, q2, q12
|
|
veor q1, q1, q8
|
|
veor q6, q6, q8
|
|
|
|
veor q12, q3, q0
|
|
veor q8, q7, q4
|
|
veor q11, q15, q14
|
|
veor q10, q13, q9
|
|
vand q11, q11, q12
|
|
vand q10, q10, q0
|
|
veor q12, q12, q8
|
|
veor q0, q0, q4
|
|
vand q8, q8, q15
|
|
vand q4, q4, q13
|
|
vand q12, q12, q14
|
|
vand q0, q0, q9
|
|
veor q8, q8, q12
|
|
veor q0, q0, q4
|
|
veor q12, q12, q11
|
|
veor q4, q4, q10
|
|
veor q15, q15, q13
|
|
veor q14, q14, q9
|
|
veor q10, q15, q14
|
|
vand q10, q10, q3
|
|
veor q3, q3, q7
|
|
vand q11, q7, q15
|
|
vand q3, q3, q14
|
|
veor q7, q11, q10
|
|
veor q3, q3, q11
|
|
veor q3, q3, q12
|
|
veor q0, q0, q12
|
|
veor q7, q7, q8
|
|
veor q4, q4, q8
|
|
veor q1, q1, q7
|
|
veor q6, q6, q5
|
|
|
|
veor q4, q4, q1
|
|
veor q2, q2, q7
|
|
veor q5, q5, q7
|
|
veor q4, q4, q2
|
|
veor q7, q7, q0
|
|
veor q4, q4, q5
|
|
veor q3, q3, q6
|
|
veor q6, q6, q1
|
|
veor q3, q3, q4
|
|
|
|
veor q4, q4, q0
|
|
veor q7, q7, q3
|
|
subs r5,r5,#1
|
|
bcc .Ldec_done
|
|
@ multiplication by 0x05-0x00-0x04-0x00
|
|
vext.8 q8, q0, q0, #8
|
|
vext.8 q14, q3, q3, #8
|
|
vext.8 q15, q5, q5, #8
|
|
veor q8, q8, q0
|
|
vext.8 q9, q1, q1, #8
|
|
veor q14, q14, q3
|
|
vext.8 q10, q6, q6, #8
|
|
veor q15, q15, q5
|
|
vext.8 q11, q4, q4, #8
|
|
veor q9, q9, q1
|
|
vext.8 q12, q2, q2, #8
|
|
veor q10, q10, q6
|
|
vext.8 q13, q7, q7, #8
|
|
veor q11, q11, q4
|
|
veor q12, q12, q2
|
|
veor q13, q13, q7
|
|
|
|
veor q0, q0, q14
|
|
veor q1, q1, q14
|
|
veor q6, q6, q8
|
|
veor q2, q2, q10
|
|
veor q4, q4, q9
|
|
veor q1, q1, q15
|
|
veor q6, q6, q15
|
|
veor q2, q2, q14
|
|
veor q7, q7, q11
|
|
veor q4, q4, q14
|
|
veor q3, q3, q12
|
|
veor q2, q2, q15
|
|
veor q7, q7, q15
|
|
veor q5, q5, q13
|
|
vext.8 q8, q0, q0, #12 @ x0 <<< 32
|
|
vext.8 q9, q1, q1, #12
|
|
veor q0, q0, q8 @ x0 ^ (x0 <<< 32)
|
|
vext.8 q10, q6, q6, #12
|
|
veor q1, q1, q9
|
|
vext.8 q11, q4, q4, #12
|
|
veor q6, q6, q10
|
|
vext.8 q12, q2, q2, #12
|
|
veor q4, q4, q11
|
|
vext.8 q13, q7, q7, #12
|
|
veor q2, q2, q12
|
|
vext.8 q14, q3, q3, #12
|
|
veor q7, q7, q13
|
|
vext.8 q15, q5, q5, #12
|
|
veor q3, q3, q14
|
|
|
|
veor q9, q9, q0
|
|
veor q5, q5, q15
|
|
vext.8 q0, q0, q0, #8 @ (x0 ^ (x0 <<< 32)) <<< 64)
|
|
veor q10, q10, q1
|
|
veor q8, q8, q5
|
|
veor q9, q9, q5
|
|
vext.8 q1, q1, q1, #8
|
|
veor q13, q13, q2
|
|
veor q0, q0, q8
|
|
veor q14, q14, q7
|
|
veor q1, q1, q9
|
|
vext.8 q8, q2, q2, #8
|
|
veor q12, q12, q4
|
|
vext.8 q9, q7, q7, #8
|
|
veor q15, q15, q3
|
|
vext.8 q2, q4, q4, #8
|
|
veor q11, q11, q6
|
|
vext.8 q7, q5, q5, #8
|
|
veor q12, q12, q5
|
|
vext.8 q4, q3, q3, #8
|
|
veor q11, q11, q5
|
|
vext.8 q3, q6, q6, #8
|
|
veor q5, q9, q13
|
|
veor q11, q11, q2
|
|
veor q7, q7, q15
|
|
veor q6, q4, q14
|
|
veor q4, q8, q12
|
|
veor q2, q3, q10
|
|
vmov q3, q11
|
|
@ vmov q5, q9
|
|
vldmia r6, {q12} @ .LISR
|
|
ite eq @ Thumb2 thing, sanity check in ARM
|
|
addeq r6,r6,#0x10
|
|
bne .Ldec_loop
|
|
vldmia r6, {q12} @ .LISRM0
|
|
b .Ldec_loop
|
|
.align 4
|
|
.Ldec_done:
|
|
vmov.i8 q8,#0x55 @ compose .LBS0
|
|
vmov.i8 q9,#0x33 @ compose .LBS1
|
|
vshr.u64 q10, q3, #1
|
|
vshr.u64 q11, q2, #1
|
|
veor q10, q10, q5
|
|
veor q11, q11, q7
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q5, q5, q10
|
|
vshl.u64 q10, q10, #1
|
|
veor q7, q7, q11
|
|
vshl.u64 q11, q11, #1
|
|
veor q3, q3, q10
|
|
veor q2, q2, q11
|
|
vshr.u64 q10, q6, #1
|
|
vshr.u64 q11, q0, #1
|
|
veor q10, q10, q4
|
|
veor q11, q11, q1
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q4, q4, q10
|
|
vshl.u64 q10, q10, #1
|
|
veor q1, q1, q11
|
|
vshl.u64 q11, q11, #1
|
|
veor q6, q6, q10
|
|
veor q0, q0, q11
|
|
vmov.i8 q8,#0x0f @ compose .LBS2
|
|
vshr.u64 q10, q7, #2
|
|
vshr.u64 q11, q2, #2
|
|
veor q10, q10, q5
|
|
veor q11, q11, q3
|
|
vand q10, q10, q9
|
|
vand q11, q11, q9
|
|
veor q5, q5, q10
|
|
vshl.u64 q10, q10, #2
|
|
veor q3, q3, q11
|
|
vshl.u64 q11, q11, #2
|
|
veor q7, q7, q10
|
|
veor q2, q2, q11
|
|
vshr.u64 q10, q1, #2
|
|
vshr.u64 q11, q0, #2
|
|
veor q10, q10, q4
|
|
veor q11, q11, q6
|
|
vand q10, q10, q9
|
|
vand q11, q11, q9
|
|
veor q4, q4, q10
|
|
vshl.u64 q10, q10, #2
|
|
veor q6, q6, q11
|
|
vshl.u64 q11, q11, #2
|
|
veor q1, q1, q10
|
|
veor q0, q0, q11
|
|
vshr.u64 q10, q4, #4
|
|
vshr.u64 q11, q6, #4
|
|
veor q10, q10, q5
|
|
veor q11, q11, q3
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q5, q5, q10
|
|
vshl.u64 q10, q10, #4
|
|
veor q3, q3, q11
|
|
vshl.u64 q11, q11, #4
|
|
veor q4, q4, q10
|
|
veor q6, q6, q11
|
|
vshr.u64 q10, q1, #4
|
|
vshr.u64 q11, q0, #4
|
|
veor q10, q10, q7
|
|
veor q11, q11, q2
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q7, q7, q10
|
|
vshl.u64 q10, q10, #4
|
|
veor q2, q2, q11
|
|
vshl.u64 q11, q11, #4
|
|
veor q1, q1, q10
|
|
veor q0, q0, q11
|
|
vldmia r4, {q8} @ last round key
|
|
veor q6, q6, q8
|
|
veor q4, q4, q8
|
|
veor q2, q2, q8
|
|
veor q7, q7, q8
|
|
veor q3, q3, q8
|
|
veor q5, q5, q8
|
|
veor q0, q0, q8
|
|
veor q1, q1, q8
|
|
bx lr
|
|
.size _bsaes_decrypt8,.-_bsaes_decrypt8
|
|
|
|
.type _bsaes_const,%object
|
|
.align 6
|
|
_bsaes_const:
|
|
.LM0ISR: @ InvShiftRows constants
|
|
.quad 0x0a0e0206070b0f03, 0x0004080c0d010509
|
|
.LISR:
|
|
.quad 0x0504070602010003, 0x0f0e0d0c080b0a09
|
|
.LISRM0:
|
|
.quad 0x01040b0e0205080f, 0x0306090c00070a0d
|
|
.LM0SR: @ ShiftRows constants
|
|
.quad 0x0a0e02060f03070b, 0x0004080c05090d01
|
|
.LSR:
|
|
.quad 0x0504070600030201, 0x0f0e0d0c0a09080b
|
|
.LSRM0:
|
|
.quad 0x0304090e00050a0f, 0x01060b0c0207080d
|
|
.LM0:
|
|
.quad 0x02060a0e03070b0f, 0x0004080c0105090d
|
|
.LREVM0SR:
|
|
.quad 0x090d01050c000408, 0x03070b0f060a0e02
|
|
.asciz "Bit-sliced AES for NEON, CRYPTOGAMS by <appro@openssl.org>"
|
|
.align 6
|
|
.size _bsaes_const,.-_bsaes_const
|
|
|
|
.type _bsaes_encrypt8,%function
|
|
.align 4
|
|
_bsaes_encrypt8:
|
|
adr r6,_bsaes_encrypt8
|
|
vldmia r4!, {q9} @ round 0 key
|
|
sub r6,r6,#_bsaes_encrypt8-.LM0SR
|
|
|
|
vldmia r6!, {q8} @ .LM0SR
|
|
_bsaes_encrypt8_alt:
|
|
veor q10, q0, q9 @ xor with round0 key
|
|
veor q11, q1, q9
|
|
vtbl.8 d0, {q10}, d16
|
|
vtbl.8 d1, {q10}, d17
|
|
veor q12, q2, q9
|
|
vtbl.8 d2, {q11}, d16
|
|
vtbl.8 d3, {q11}, d17
|
|
veor q13, q3, q9
|
|
vtbl.8 d4, {q12}, d16
|
|
vtbl.8 d5, {q12}, d17
|
|
veor q14, q4, q9
|
|
vtbl.8 d6, {q13}, d16
|
|
vtbl.8 d7, {q13}, d17
|
|
veor q15, q5, q9
|
|
vtbl.8 d8, {q14}, d16
|
|
vtbl.8 d9, {q14}, d17
|
|
veor q10, q6, q9
|
|
vtbl.8 d10, {q15}, d16
|
|
vtbl.8 d11, {q15}, d17
|
|
veor q11, q7, q9
|
|
vtbl.8 d12, {q10}, d16
|
|
vtbl.8 d13, {q10}, d17
|
|
vtbl.8 d14, {q11}, d16
|
|
vtbl.8 d15, {q11}, d17
|
|
_bsaes_encrypt8_bitslice:
|
|
vmov.i8 q8,#0x55 @ compose .LBS0
|
|
vmov.i8 q9,#0x33 @ compose .LBS1
|
|
vshr.u64 q10, q6, #1
|
|
vshr.u64 q11, q4, #1
|
|
veor q10, q10, q7
|
|
veor q11, q11, q5
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q7, q7, q10
|
|
vshl.u64 q10, q10, #1
|
|
veor q5, q5, q11
|
|
vshl.u64 q11, q11, #1
|
|
veor q6, q6, q10
|
|
veor q4, q4, q11
|
|
vshr.u64 q10, q2, #1
|
|
vshr.u64 q11, q0, #1
|
|
veor q10, q10, q3
|
|
veor q11, q11, q1
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q3, q3, q10
|
|
vshl.u64 q10, q10, #1
|
|
veor q1, q1, q11
|
|
vshl.u64 q11, q11, #1
|
|
veor q2, q2, q10
|
|
veor q0, q0, q11
|
|
vmov.i8 q8,#0x0f @ compose .LBS2
|
|
vshr.u64 q10, q5, #2
|
|
vshr.u64 q11, q4, #2
|
|
veor q10, q10, q7
|
|
veor q11, q11, q6
|
|
vand q10, q10, q9
|
|
vand q11, q11, q9
|
|
veor q7, q7, q10
|
|
vshl.u64 q10, q10, #2
|
|
veor q6, q6, q11
|
|
vshl.u64 q11, q11, #2
|
|
veor q5, q5, q10
|
|
veor q4, q4, q11
|
|
vshr.u64 q10, q1, #2
|
|
vshr.u64 q11, q0, #2
|
|
veor q10, q10, q3
|
|
veor q11, q11, q2
|
|
vand q10, q10, q9
|
|
vand q11, q11, q9
|
|
veor q3, q3, q10
|
|
vshl.u64 q10, q10, #2
|
|
veor q2, q2, q11
|
|
vshl.u64 q11, q11, #2
|
|
veor q1, q1, q10
|
|
veor q0, q0, q11
|
|
vshr.u64 q10, q3, #4
|
|
vshr.u64 q11, q2, #4
|
|
veor q10, q10, q7
|
|
veor q11, q11, q6
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q7, q7, q10
|
|
vshl.u64 q10, q10, #4
|
|
veor q6, q6, q11
|
|
vshl.u64 q11, q11, #4
|
|
veor q3, q3, q10
|
|
veor q2, q2, q11
|
|
vshr.u64 q10, q1, #4
|
|
vshr.u64 q11, q0, #4
|
|
veor q10, q10, q5
|
|
veor q11, q11, q4
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q5, q5, q10
|
|
vshl.u64 q10, q10, #4
|
|
veor q4, q4, q11
|
|
vshl.u64 q11, q11, #4
|
|
veor q1, q1, q10
|
|
veor q0, q0, q11
|
|
sub r5,r5,#1
|
|
b .Lenc_sbox
|
|
.align 4
|
|
.Lenc_loop:
|
|
vldmia r4!, {q8-q11}
|
|
veor q8, q8, q0
|
|
veor q9, q9, q1
|
|
vtbl.8 d0, {q8}, d24
|
|
vtbl.8 d1, {q8}, d25
|
|
vldmia r4!, {q8}
|
|
veor q10, q10, q2
|
|
vtbl.8 d2, {q9}, d24
|
|
vtbl.8 d3, {q9}, d25
|
|
vldmia r4!, {q9}
|
|
veor q11, q11, q3
|
|
vtbl.8 d4, {q10}, d24
|
|
vtbl.8 d5, {q10}, d25
|
|
vldmia r4!, {q10}
|
|
vtbl.8 d6, {q11}, d24
|
|
vtbl.8 d7, {q11}, d25
|
|
vldmia r4!, {q11}
|
|
veor q8, q8, q4
|
|
veor q9, q9, q5
|
|
vtbl.8 d8, {q8}, d24
|
|
vtbl.8 d9, {q8}, d25
|
|
veor q10, q10, q6
|
|
vtbl.8 d10, {q9}, d24
|
|
vtbl.8 d11, {q9}, d25
|
|
veor q11, q11, q7
|
|
vtbl.8 d12, {q10}, d24
|
|
vtbl.8 d13, {q10}, d25
|
|
vtbl.8 d14, {q11}, d24
|
|
vtbl.8 d15, {q11}, d25
|
|
.Lenc_sbox:
|
|
veor q2, q2, q1
|
|
veor q5, q5, q6
|
|
veor q3, q3, q0
|
|
veor q6, q6, q2
|
|
veor q5, q5, q0
|
|
|
|
veor q6, q6, q3
|
|
veor q3, q3, q7
|
|
veor q7, q7, q5
|
|
veor q3, q3, q4
|
|
veor q4, q4, q5
|
|
|
|
veor q2, q2, q7
|
|
veor q3, q3, q1
|
|
veor q1, q1, q5
|
|
veor q11, q7, q4
|
|
veor q10, q1, q2
|
|
veor q9, q5, q3
|
|
veor q13, q2, q4
|
|
vmov q8, q10
|
|
veor q12, q6, q0
|
|
|
|
vorr q10, q10, q9
|
|
veor q15, q11, q8
|
|
vand q14, q11, q12
|
|
vorr q11, q11, q12
|
|
veor q12, q12, q9
|
|
vand q8, q8, q9
|
|
veor q9, q3, q0
|
|
vand q15, q15, q12
|
|
vand q13, q13, q9
|
|
veor q9, q7, q1
|
|
veor q12, q5, q6
|
|
veor q11, q11, q13
|
|
veor q10, q10, q13
|
|
vand q13, q9, q12
|
|
vorr q9, q9, q12
|
|
veor q11, q11, q15
|
|
veor q8, q8, q13
|
|
veor q10, q10, q14
|
|
veor q9, q9, q15
|
|
veor q8, q8, q14
|
|
vand q12, q2, q3
|
|
veor q9, q9, q14
|
|
vand q13, q4, q0
|
|
vand q14, q1, q5
|
|
vorr q15, q7, q6
|
|
veor q11, q11, q12
|
|
veor q9, q9, q14
|
|
veor q8, q8, q15
|
|
veor q10, q10, q13
|
|
|
|
@ Inv_GF16 0, 1, 2, 3, s0, s1, s2, s3
|
|
|
|
@ new smaller inversion
|
|
|
|
vand q14, q11, q9
|
|
vmov q12, q8
|
|
|
|
veor q13, q10, q14
|
|
veor q15, q8, q14
|
|
veor q14, q8, q14 @ q14=q15
|
|
|
|
vbsl q13, q9, q8
|
|
vbsl q15, q11, q10
|
|
veor q11, q11, q10
|
|
|
|
vbsl q12, q13, q14
|
|
vbsl q8, q14, q13
|
|
|
|
vand q14, q12, q15
|
|
veor q9, q9, q8
|
|
|
|
veor q14, q14, q11
|
|
veor q12, q6, q0
|
|
veor q8, q5, q3
|
|
veor q10, q15, q14
|
|
vand q10, q10, q6
|
|
veor q6, q6, q5
|
|
vand q11, q5, q15
|
|
vand q6, q6, q14
|
|
veor q5, q11, q10
|
|
veor q6, q6, q11
|
|
veor q15, q15, q13
|
|
veor q14, q14, q9
|
|
veor q11, q15, q14
|
|
veor q10, q13, q9
|
|
vand q11, q11, q12
|
|
vand q10, q10, q0
|
|
veor q12, q12, q8
|
|
veor q0, q0, q3
|
|
vand q8, q8, q15
|
|
vand q3, q3, q13
|
|
vand q12, q12, q14
|
|
vand q0, q0, q9
|
|
veor q8, q8, q12
|
|
veor q0, q0, q3
|
|
veor q12, q12, q11
|
|
veor q3, q3, q10
|
|
veor q6, q6, q12
|
|
veor q0, q0, q12
|
|
veor q5, q5, q8
|
|
veor q3, q3, q8
|
|
|
|
veor q12, q7, q4
|
|
veor q8, q1, q2
|
|
veor q11, q15, q14
|
|
veor q10, q13, q9
|
|
vand q11, q11, q12
|
|
vand q10, q10, q4
|
|
veor q12, q12, q8
|
|
veor q4, q4, q2
|
|
vand q8, q8, q15
|
|
vand q2, q2, q13
|
|
vand q12, q12, q14
|
|
vand q4, q4, q9
|
|
veor q8, q8, q12
|
|
veor q4, q4, q2
|
|
veor q12, q12, q11
|
|
veor q2, q2, q10
|
|
veor q15, q15, q13
|
|
veor q14, q14, q9
|
|
veor q10, q15, q14
|
|
vand q10, q10, q7
|
|
veor q7, q7, q1
|
|
vand q11, q1, q15
|
|
vand q7, q7, q14
|
|
veor q1, q11, q10
|
|
veor q7, q7, q11
|
|
veor q7, q7, q12
|
|
veor q4, q4, q12
|
|
veor q1, q1, q8
|
|
veor q2, q2, q8
|
|
veor q7, q7, q0
|
|
veor q1, q1, q6
|
|
veor q6, q6, q0
|
|
veor q4, q4, q7
|
|
veor q0, q0, q1
|
|
|
|
veor q1, q1, q5
|
|
veor q5, q5, q2
|
|
veor q2, q2, q3
|
|
veor q3, q3, q5
|
|
veor q4, q4, q5
|
|
|
|
veor q6, q6, q3
|
|
subs r5,r5,#1
|
|
bcc .Lenc_done
|
|
vext.8 q8, q0, q0, #12 @ x0 <<< 32
|
|
vext.8 q9, q1, q1, #12
|
|
veor q0, q0, q8 @ x0 ^ (x0 <<< 32)
|
|
vext.8 q10, q4, q4, #12
|
|
veor q1, q1, q9
|
|
vext.8 q11, q6, q6, #12
|
|
veor q4, q4, q10
|
|
vext.8 q12, q3, q3, #12
|
|
veor q6, q6, q11
|
|
vext.8 q13, q7, q7, #12
|
|
veor q3, q3, q12
|
|
vext.8 q14, q2, q2, #12
|
|
veor q7, q7, q13
|
|
vext.8 q15, q5, q5, #12
|
|
veor q2, q2, q14
|
|
|
|
veor q9, q9, q0
|
|
veor q5, q5, q15
|
|
vext.8 q0, q0, q0, #8 @ (x0 ^ (x0 <<< 32)) <<< 64)
|
|
veor q10, q10, q1
|
|
veor q8, q8, q5
|
|
veor q9, q9, q5
|
|
vext.8 q1, q1, q1, #8
|
|
veor q13, q13, q3
|
|
veor q0, q0, q8
|
|
veor q14, q14, q7
|
|
veor q1, q1, q9
|
|
vext.8 q8, q3, q3, #8
|
|
veor q12, q12, q6
|
|
vext.8 q9, q7, q7, #8
|
|
veor q15, q15, q2
|
|
vext.8 q3, q6, q6, #8
|
|
veor q11, q11, q4
|
|
vext.8 q7, q5, q5, #8
|
|
veor q12, q12, q5
|
|
vext.8 q6, q2, q2, #8
|
|
veor q11, q11, q5
|
|
vext.8 q2, q4, q4, #8
|
|
veor q5, q9, q13
|
|
veor q4, q8, q12
|
|
veor q3, q3, q11
|
|
veor q7, q7, q15
|
|
veor q6, q6, q14
|
|
@ vmov q4, q8
|
|
veor q2, q2, q10
|
|
@ vmov q5, q9
|
|
vldmia r6, {q12} @ .LSR
|
|
ite eq @ Thumb2 thing, samity check in ARM
|
|
addeq r6,r6,#0x10
|
|
bne .Lenc_loop
|
|
vldmia r6, {q12} @ .LSRM0
|
|
b .Lenc_loop
|
|
.align 4
|
|
.Lenc_done:
|
|
vmov.i8 q8,#0x55 @ compose .LBS0
|
|
vmov.i8 q9,#0x33 @ compose .LBS1
|
|
vshr.u64 q10, q2, #1
|
|
vshr.u64 q11, q3, #1
|
|
veor q10, q10, q5
|
|
veor q11, q11, q7
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q5, q5, q10
|
|
vshl.u64 q10, q10, #1
|
|
veor q7, q7, q11
|
|
vshl.u64 q11, q11, #1
|
|
veor q2, q2, q10
|
|
veor q3, q3, q11
|
|
vshr.u64 q10, q4, #1
|
|
vshr.u64 q11, q0, #1
|
|
veor q10, q10, q6
|
|
veor q11, q11, q1
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q6, q6, q10
|
|
vshl.u64 q10, q10, #1
|
|
veor q1, q1, q11
|
|
vshl.u64 q11, q11, #1
|
|
veor q4, q4, q10
|
|
veor q0, q0, q11
|
|
vmov.i8 q8,#0x0f @ compose .LBS2
|
|
vshr.u64 q10, q7, #2
|
|
vshr.u64 q11, q3, #2
|
|
veor q10, q10, q5
|
|
veor q11, q11, q2
|
|
vand q10, q10, q9
|
|
vand q11, q11, q9
|
|
veor q5, q5, q10
|
|
vshl.u64 q10, q10, #2
|
|
veor q2, q2, q11
|
|
vshl.u64 q11, q11, #2
|
|
veor q7, q7, q10
|
|
veor q3, q3, q11
|
|
vshr.u64 q10, q1, #2
|
|
vshr.u64 q11, q0, #2
|
|
veor q10, q10, q6
|
|
veor q11, q11, q4
|
|
vand q10, q10, q9
|
|
vand q11, q11, q9
|
|
veor q6, q6, q10
|
|
vshl.u64 q10, q10, #2
|
|
veor q4, q4, q11
|
|
vshl.u64 q11, q11, #2
|
|
veor q1, q1, q10
|
|
veor q0, q0, q11
|
|
vshr.u64 q10, q6, #4
|
|
vshr.u64 q11, q4, #4
|
|
veor q10, q10, q5
|
|
veor q11, q11, q2
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q5, q5, q10
|
|
vshl.u64 q10, q10, #4
|
|
veor q2, q2, q11
|
|
vshl.u64 q11, q11, #4
|
|
veor q6, q6, q10
|
|
veor q4, q4, q11
|
|
vshr.u64 q10, q1, #4
|
|
vshr.u64 q11, q0, #4
|
|
veor q10, q10, q7
|
|
veor q11, q11, q3
|
|
vand q10, q10, q8
|
|
vand q11, q11, q8
|
|
veor q7, q7, q10
|
|
vshl.u64 q10, q10, #4
|
|
veor q3, q3, q11
|
|
vshl.u64 q11, q11, #4
|
|
veor q1, q1, q10
|
|
veor q0, q0, q11
|
|
vldmia r4, {q8} @ last round key
|
|
veor q4, q4, q8
|
|
veor q6, q6, q8
|
|
veor q3, q3, q8
|
|
veor q7, q7, q8
|
|
veor q2, q2, q8
|
|
veor q5, q5, q8
|
|
veor q0, q0, q8
|
|
veor q1, q1, q8
|
|
bx lr
|
|
.size _bsaes_encrypt8,.-_bsaes_encrypt8
|
|
.type _bsaes_key_convert,%function
|
|
.align 4
|
|
_bsaes_key_convert:
|
|
adr r6,_bsaes_key_convert
|
|
vld1.8 {q7}, [r4]! @ load round 0 key
|
|
sub r6,r6,#_bsaes_key_convert-.LM0
|
|
vld1.8 {q15}, [r4]! @ load round 1 key
|
|
|
|
vmov.i8 q8, #0x01 @ bit masks
|
|
vmov.i8 q9, #0x02
|
|
vmov.i8 q10, #0x04
|
|
vmov.i8 q11, #0x08
|
|
vmov.i8 q12, #0x10
|
|
vmov.i8 q13, #0x20
|
|
vldmia r6, {q14} @ .LM0
|
|
|
|
#ifdef __ARMEL__
|
|
vrev32.8 q7, q7
|
|
vrev32.8 q15, q15
|
|
#endif
|
|
sub r5,r5,#1
|
|
vstmia r12!, {q7} @ save round 0 key
|
|
b .Lkey_loop
|
|
|
|
.align 4
|
|
.Lkey_loop:
|
|
vtbl.8 d14,{q15},d28
|
|
vtbl.8 d15,{q15},d29
|
|
vmov.i8 q6, #0x40
|
|
vmov.i8 q15, #0x80
|
|
|
|
vtst.8 q0, q7, q8
|
|
vtst.8 q1, q7, q9
|
|
vtst.8 q2, q7, q10
|
|
vtst.8 q3, q7, q11
|
|
vtst.8 q4, q7, q12
|
|
vtst.8 q5, q7, q13
|
|
vtst.8 q6, q7, q6
|
|
vtst.8 q7, q7, q15
|
|
vld1.8 {q15}, [r4]! @ load next round key
|
|
vmvn q0, q0 @ "pnot"
|
|
vmvn q1, q1
|
|
vmvn q5, q5
|
|
vmvn q6, q6
|
|
#ifdef __ARMEL__
|
|
vrev32.8 q15, q15
|
|
#endif
|
|
subs r5,r5,#1
|
|
vstmia r12!,{q0-q7} @ write bit-sliced round key
|
|
bne .Lkey_loop
|
|
|
|
vmov.i8 q7,#0x63 @ compose .L63
|
|
@ don't save last round key
|
|
bx lr
|
|
.size _bsaes_key_convert,.-_bsaes_key_convert
|
|
.extern AES_cbc_encrypt
|
|
.extern AES_decrypt
|
|
|
|
.global bsaes_cbc_encrypt
|
|
.type bsaes_cbc_encrypt,%function
|
|
.align 5
|
|
bsaes_cbc_encrypt:
|
|
#ifndef __KERNEL__
|
|
cmp r2, #128
|
|
#ifndef __thumb__
|
|
blo AES_cbc_encrypt
|
|
#else
|
|
bhs 1f
|
|
b AES_cbc_encrypt
|
|
1:
|
|
#endif
|
|
#endif
|
|
|
|
@ it is up to the caller to make sure we are called with enc == 0
|
|
|
|
mov ip, sp
|
|
stmdb sp!, {r4-r10, lr}
|
|
VFP_ABI_PUSH
|
|
ldr r8, [ip] @ IV is 1st arg on the stack
|
|
mov r2, r2, lsr#4 @ len in 16 byte blocks
|
|
sub sp, #0x10 @ scratch space to carry over the IV
|
|
mov r9, sp @ save sp
|
|
|
|
ldr r10, [r3, #240] @ get # of rounds
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
@ allocate the key schedule on the stack
|
|
sub r12, sp, r10, lsl#7 @ 128 bytes per inner round key
|
|
add r12, #96 @ sifze of bit-slices key schedule
|
|
|
|
@ populate the key schedule
|
|
mov r4, r3 @ pass key
|
|
mov r5, r10 @ pass # of rounds
|
|
mov sp, r12 @ sp is sp
|
|
bl _bsaes_key_convert
|
|
vldmia sp, {q6}
|
|
vstmia r12, {q15} @ save last round key
|
|
veor q7, q7, q6 @ fix up round 0 key
|
|
vstmia sp, {q7}
|
|
#else
|
|
ldr r12, [r3, #244]
|
|
eors r12, #1
|
|
beq 0f
|
|
|
|
@ populate the key schedule
|
|
str r12, [r3, #244]
|
|
mov r4, r3 @ pass key
|
|
mov r5, r10 @ pass # of rounds
|
|
add r12, r3, #248 @ pass key schedule
|
|
bl _bsaes_key_convert
|
|
add r4, r3, #248
|
|
vldmia r4, {q6}
|
|
vstmia r12, {q15} @ save last round key
|
|
veor q7, q7, q6 @ fix up round 0 key
|
|
vstmia r4, {q7}
|
|
|
|
.align 2
|
|
0:
|
|
#endif
|
|
|
|
vld1.8 {q15}, [r8] @ load IV
|
|
b .Lcbc_dec_loop
|
|
|
|
.align 4
|
|
.Lcbc_dec_loop:
|
|
subs r2, r2, #0x8
|
|
bmi .Lcbc_dec_loop_finish
|
|
|
|
vld1.8 {q0-q1}, [r0]! @ load input
|
|
vld1.8 {q2-q3}, [r0]!
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
mov r4, sp @ pass the key
|
|
#else
|
|
add r4, r3, #248
|
|
#endif
|
|
vld1.8 {q4-q5}, [r0]!
|
|
mov r5, r10
|
|
vld1.8 {q6-q7}, [r0]
|
|
sub r0, r0, #0x60
|
|
vstmia r9, {q15} @ put aside IV
|
|
|
|
bl _bsaes_decrypt8
|
|
|
|
vldmia r9, {q14} @ reload IV
|
|
vld1.8 {q8-q9}, [r0]! @ reload input
|
|
veor q0, q0, q14 @ ^= IV
|
|
vld1.8 {q10-q11}, [r0]!
|
|
veor q1, q1, q8
|
|
veor q6, q6, q9
|
|
vld1.8 {q12-q13}, [r0]!
|
|
veor q4, q4, q10
|
|
veor q2, q2, q11
|
|
vld1.8 {q14-q15}, [r0]!
|
|
veor q7, q7, q12
|
|
vst1.8 {q0-q1}, [r1]! @ write output
|
|
veor q3, q3, q13
|
|
vst1.8 {q6}, [r1]!
|
|
veor q5, q5, q14
|
|
vst1.8 {q4}, [r1]!
|
|
vst1.8 {q2}, [r1]!
|
|
vst1.8 {q7}, [r1]!
|
|
vst1.8 {q3}, [r1]!
|
|
vst1.8 {q5}, [r1]!
|
|
|
|
b .Lcbc_dec_loop
|
|
|
|
.Lcbc_dec_loop_finish:
|
|
adds r2, r2, #8
|
|
beq .Lcbc_dec_done
|
|
|
|
vld1.8 {q0}, [r0]! @ load input
|
|
cmp r2, #2
|
|
blo .Lcbc_dec_one
|
|
vld1.8 {q1}, [r0]!
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
mov r4, sp @ pass the key
|
|
#else
|
|
add r4, r3, #248
|
|
#endif
|
|
mov r5, r10
|
|
vstmia r9, {q15} @ put aside IV
|
|
beq .Lcbc_dec_two
|
|
vld1.8 {q2}, [r0]!
|
|
cmp r2, #4
|
|
blo .Lcbc_dec_three
|
|
vld1.8 {q3}, [r0]!
|
|
beq .Lcbc_dec_four
|
|
vld1.8 {q4}, [r0]!
|
|
cmp r2, #6
|
|
blo .Lcbc_dec_five
|
|
vld1.8 {q5}, [r0]!
|
|
beq .Lcbc_dec_six
|
|
vld1.8 {q6}, [r0]!
|
|
sub r0, r0, #0x70
|
|
|
|
bl _bsaes_decrypt8
|
|
|
|
vldmia r9, {q14} @ reload IV
|
|
vld1.8 {q8-q9}, [r0]! @ reload input
|
|
veor q0, q0, q14 @ ^= IV
|
|
vld1.8 {q10-q11}, [r0]!
|
|
veor q1, q1, q8
|
|
veor q6, q6, q9
|
|
vld1.8 {q12-q13}, [r0]!
|
|
veor q4, q4, q10
|
|
veor q2, q2, q11
|
|
vld1.8 {q15}, [r0]!
|
|
veor q7, q7, q12
|
|
vst1.8 {q0-q1}, [r1]! @ write output
|
|
veor q3, q3, q13
|
|
vst1.8 {q6}, [r1]!
|
|
vst1.8 {q4}, [r1]!
|
|
vst1.8 {q2}, [r1]!
|
|
vst1.8 {q7}, [r1]!
|
|
vst1.8 {q3}, [r1]!
|
|
b .Lcbc_dec_done
|
|
.align 4
|
|
.Lcbc_dec_six:
|
|
sub r0, r0, #0x60
|
|
bl _bsaes_decrypt8
|
|
vldmia r9,{q14} @ reload IV
|
|
vld1.8 {q8-q9}, [r0]! @ reload input
|
|
veor q0, q0, q14 @ ^= IV
|
|
vld1.8 {q10-q11}, [r0]!
|
|
veor q1, q1, q8
|
|
veor q6, q6, q9
|
|
vld1.8 {q12}, [r0]!
|
|
veor q4, q4, q10
|
|
veor q2, q2, q11
|
|
vld1.8 {q15}, [r0]!
|
|
veor q7, q7, q12
|
|
vst1.8 {q0-q1}, [r1]! @ write output
|
|
vst1.8 {q6}, [r1]!
|
|
vst1.8 {q4}, [r1]!
|
|
vst1.8 {q2}, [r1]!
|
|
vst1.8 {q7}, [r1]!
|
|
b .Lcbc_dec_done
|
|
.align 4
|
|
.Lcbc_dec_five:
|
|
sub r0, r0, #0x50
|
|
bl _bsaes_decrypt8
|
|
vldmia r9, {q14} @ reload IV
|
|
vld1.8 {q8-q9}, [r0]! @ reload input
|
|
veor q0, q0, q14 @ ^= IV
|
|
vld1.8 {q10-q11}, [r0]!
|
|
veor q1, q1, q8
|
|
veor q6, q6, q9
|
|
vld1.8 {q15}, [r0]!
|
|
veor q4, q4, q10
|
|
vst1.8 {q0-q1}, [r1]! @ write output
|
|
veor q2, q2, q11
|
|
vst1.8 {q6}, [r1]!
|
|
vst1.8 {q4}, [r1]!
|
|
vst1.8 {q2}, [r1]!
|
|
b .Lcbc_dec_done
|
|
.align 4
|
|
.Lcbc_dec_four:
|
|
sub r0, r0, #0x40
|
|
bl _bsaes_decrypt8
|
|
vldmia r9, {q14} @ reload IV
|
|
vld1.8 {q8-q9}, [r0]! @ reload input
|
|
veor q0, q0, q14 @ ^= IV
|
|
vld1.8 {q10}, [r0]!
|
|
veor q1, q1, q8
|
|
veor q6, q6, q9
|
|
vld1.8 {q15}, [r0]!
|
|
veor q4, q4, q10
|
|
vst1.8 {q0-q1}, [r1]! @ write output
|
|
vst1.8 {q6}, [r1]!
|
|
vst1.8 {q4}, [r1]!
|
|
b .Lcbc_dec_done
|
|
.align 4
|
|
.Lcbc_dec_three:
|
|
sub r0, r0, #0x30
|
|
bl _bsaes_decrypt8
|
|
vldmia r9, {q14} @ reload IV
|
|
vld1.8 {q8-q9}, [r0]! @ reload input
|
|
veor q0, q0, q14 @ ^= IV
|
|
vld1.8 {q15}, [r0]!
|
|
veor q1, q1, q8
|
|
veor q6, q6, q9
|
|
vst1.8 {q0-q1}, [r1]! @ write output
|
|
vst1.8 {q6}, [r1]!
|
|
b .Lcbc_dec_done
|
|
.align 4
|
|
.Lcbc_dec_two:
|
|
sub r0, r0, #0x20
|
|
bl _bsaes_decrypt8
|
|
vldmia r9, {q14} @ reload IV
|
|
vld1.8 {q8}, [r0]! @ reload input
|
|
veor q0, q0, q14 @ ^= IV
|
|
vld1.8 {q15}, [r0]! @ reload input
|
|
veor q1, q1, q8
|
|
vst1.8 {q0-q1}, [r1]! @ write output
|
|
b .Lcbc_dec_done
|
|
.align 4
|
|
.Lcbc_dec_one:
|
|
sub r0, r0, #0x10
|
|
mov r10, r1 @ save original out pointer
|
|
mov r1, r9 @ use the iv scratch space as out buffer
|
|
mov r2, r3
|
|
vmov q4,q15 @ just in case ensure that IV
|
|
vmov q5,q0 @ and input are preserved
|
|
bl AES_decrypt
|
|
vld1.8 {q0}, [r9,:64] @ load result
|
|
veor q0, q0, q4 @ ^= IV
|
|
vmov q15, q5 @ q5 holds input
|
|
vst1.8 {q0}, [r10] @ write output
|
|
|
|
.Lcbc_dec_done:
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
vmov.i32 q0, #0
|
|
vmov.i32 q1, #0
|
|
.Lcbc_dec_bzero: @ wipe key schedule [if any]
|
|
vstmia sp!, {q0-q1}
|
|
cmp sp, r9
|
|
bne .Lcbc_dec_bzero
|
|
#endif
|
|
|
|
mov sp, r9
|
|
add sp, #0x10 @ add sp,r9,#0x10 is no good for thumb
|
|
vst1.8 {q15}, [r8] @ return IV
|
|
VFP_ABI_POP
|
|
ldmia sp!, {r4-r10, pc}
|
|
.size bsaes_cbc_encrypt,.-bsaes_cbc_encrypt
|
|
.extern AES_encrypt
|
|
.global bsaes_ctr32_encrypt_blocks
|
|
.type bsaes_ctr32_encrypt_blocks,%function
|
|
.align 5
|
|
bsaes_ctr32_encrypt_blocks:
|
|
cmp r2, #8 @ use plain AES for
|
|
blo .Lctr_enc_short @ small sizes
|
|
|
|
mov ip, sp
|
|
stmdb sp!, {r4-r10, lr}
|
|
VFP_ABI_PUSH
|
|
ldr r8, [ip] @ ctr is 1st arg on the stack
|
|
sub sp, sp, #0x10 @ scratch space to carry over the ctr
|
|
mov r9, sp @ save sp
|
|
|
|
ldr r10, [r3, #240] @ get # of rounds
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
@ allocate the key schedule on the stack
|
|
sub r12, sp, r10, lsl#7 @ 128 bytes per inner round key
|
|
add r12, #96 @ size of bit-sliced key schedule
|
|
|
|
@ populate the key schedule
|
|
mov r4, r3 @ pass key
|
|
mov r5, r10 @ pass # of rounds
|
|
mov sp, r12 @ sp is sp
|
|
bl _bsaes_key_convert
|
|
veor q7,q7,q15 @ fix up last round key
|
|
vstmia r12, {q7} @ save last round key
|
|
|
|
vld1.8 {q0}, [r8] @ load counter
|
|
add r8, r6, #.LREVM0SR-.LM0 @ borrow r8
|
|
vldmia sp, {q4} @ load round0 key
|
|
#else
|
|
ldr r12, [r3, #244]
|
|
eors r12, #1
|
|
beq 0f
|
|
|
|
@ populate the key schedule
|
|
str r12, [r3, #244]
|
|
mov r4, r3 @ pass key
|
|
mov r5, r10 @ pass # of rounds
|
|
add r12, r3, #248 @ pass key schedule
|
|
bl _bsaes_key_convert
|
|
veor q7,q7,q15 @ fix up last round key
|
|
vstmia r12, {q7} @ save last round key
|
|
|
|
.align 2
|
|
0: add r12, r3, #248
|
|
vld1.8 {q0}, [r8] @ load counter
|
|
adrl r8, .LREVM0SR @ borrow r8
|
|
vldmia r12, {q4} @ load round0 key
|
|
sub sp, #0x10 @ place for adjusted round0 key
|
|
#endif
|
|
|
|
vmov.i32 q8,#1 @ compose 1<<96
|
|
veor q9,q9,q9
|
|
vrev32.8 q0,q0
|
|
vext.8 q8,q9,q8,#4
|
|
vrev32.8 q4,q4
|
|
vadd.u32 q9,q8,q8 @ compose 2<<96
|
|
vstmia sp, {q4} @ save adjusted round0 key
|
|
b .Lctr_enc_loop
|
|
|
|
.align 4
|
|
.Lctr_enc_loop:
|
|
vadd.u32 q10, q8, q9 @ compose 3<<96
|
|
vadd.u32 q1, q0, q8 @ +1
|
|
vadd.u32 q2, q0, q9 @ +2
|
|
vadd.u32 q3, q0, q10 @ +3
|
|
vadd.u32 q4, q1, q10
|
|
vadd.u32 q5, q2, q10
|
|
vadd.u32 q6, q3, q10
|
|
vadd.u32 q7, q4, q10
|
|
vadd.u32 q10, q5, q10 @ next counter
|
|
|
|
@ Borrow prologue from _bsaes_encrypt8 to use the opportunity
|
|
@ to flip byte order in 32-bit counter
|
|
|
|
vldmia sp, {q9} @ load round0 key
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x10 @ pass next round key
|
|
#else
|
|
add r4, r3, #264
|
|
#endif
|
|
vldmia r8, {q8} @ .LREVM0SR
|
|
mov r5, r10 @ pass rounds
|
|
vstmia r9, {q10} @ save next counter
|
|
sub r6, r8, #.LREVM0SR-.LSR @ pass constants
|
|
|
|
bl _bsaes_encrypt8_alt
|
|
|
|
subs r2, r2, #8
|
|
blo .Lctr_enc_loop_done
|
|
|
|
vld1.8 {q8-q9}, [r0]! @ load input
|
|
vld1.8 {q10-q11}, [r0]!
|
|
veor q0, q8
|
|
veor q1, q9
|
|
vld1.8 {q12-q13}, [r0]!
|
|
veor q4, q10
|
|
veor q6, q11
|
|
vld1.8 {q14-q15}, [r0]!
|
|
veor q3, q12
|
|
vst1.8 {q0-q1}, [r1]! @ write output
|
|
veor q7, q13
|
|
veor q2, q14
|
|
vst1.8 {q4}, [r1]!
|
|
veor q5, q15
|
|
vst1.8 {q6}, [r1]!
|
|
vmov.i32 q8, #1 @ compose 1<<96
|
|
vst1.8 {q3}, [r1]!
|
|
veor q9, q9, q9
|
|
vst1.8 {q7}, [r1]!
|
|
vext.8 q8, q9, q8, #4
|
|
vst1.8 {q2}, [r1]!
|
|
vadd.u32 q9,q8,q8 @ compose 2<<96
|
|
vst1.8 {q5}, [r1]!
|
|
vldmia r9, {q0} @ load counter
|
|
|
|
bne .Lctr_enc_loop
|
|
b .Lctr_enc_done
|
|
|
|
.align 4
|
|
.Lctr_enc_loop_done:
|
|
add r2, r2, #8
|
|
vld1.8 {q8}, [r0]! @ load input
|
|
veor q0, q8
|
|
vst1.8 {q0}, [r1]! @ write output
|
|
cmp r2, #2
|
|
blo .Lctr_enc_done
|
|
vld1.8 {q9}, [r0]!
|
|
veor q1, q9
|
|
vst1.8 {q1}, [r1]!
|
|
beq .Lctr_enc_done
|
|
vld1.8 {q10}, [r0]!
|
|
veor q4, q10
|
|
vst1.8 {q4}, [r1]!
|
|
cmp r2, #4
|
|
blo .Lctr_enc_done
|
|
vld1.8 {q11}, [r0]!
|
|
veor q6, q11
|
|
vst1.8 {q6}, [r1]!
|
|
beq .Lctr_enc_done
|
|
vld1.8 {q12}, [r0]!
|
|
veor q3, q12
|
|
vst1.8 {q3}, [r1]!
|
|
cmp r2, #6
|
|
blo .Lctr_enc_done
|
|
vld1.8 {q13}, [r0]!
|
|
veor q7, q13
|
|
vst1.8 {q7}, [r1]!
|
|
beq .Lctr_enc_done
|
|
vld1.8 {q14}, [r0]
|
|
veor q2, q14
|
|
vst1.8 {q2}, [r1]!
|
|
|
|
.Lctr_enc_done:
|
|
vmov.i32 q0, #0
|
|
vmov.i32 q1, #0
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
.Lctr_enc_bzero: @ wipe key schedule [if any]
|
|
vstmia sp!, {q0-q1}
|
|
cmp sp, r9
|
|
bne .Lctr_enc_bzero
|
|
#else
|
|
vstmia sp, {q0-q1}
|
|
#endif
|
|
|
|
mov sp, r9
|
|
add sp, #0x10 @ add sp,r9,#0x10 is no good for thumb
|
|
VFP_ABI_POP
|
|
ldmia sp!, {r4-r10, pc} @ return
|
|
|
|
.align 4
|
|
.Lctr_enc_short:
|
|
ldr ip, [sp] @ ctr pointer is passed on stack
|
|
stmdb sp!, {r4-r8, lr}
|
|
|
|
mov r4, r0 @ copy arguments
|
|
mov r5, r1
|
|
mov r6, r2
|
|
mov r7, r3
|
|
ldr r8, [ip, #12] @ load counter LSW
|
|
vld1.8 {q1}, [ip] @ load whole counter value
|
|
#ifdef __ARMEL__
|
|
rev r8, r8
|
|
#endif
|
|
sub sp, sp, #0x10
|
|
vst1.8 {q1}, [sp,:64] @ copy counter value
|
|
sub sp, sp, #0x10
|
|
|
|
.Lctr_enc_short_loop:
|
|
add r0, sp, #0x10 @ input counter value
|
|
mov r1, sp @ output on the stack
|
|
mov r2, r7 @ key
|
|
|
|
bl AES_encrypt
|
|
|
|
vld1.8 {q0}, [r4]! @ load input
|
|
vld1.8 {q1}, [sp,:64] @ load encrypted counter
|
|
add r8, r8, #1
|
|
#ifdef __ARMEL__
|
|
rev r0, r8
|
|
str r0, [sp, #0x1c] @ next counter value
|
|
#else
|
|
str r8, [sp, #0x1c] @ next counter value
|
|
#endif
|
|
veor q0,q0,q1
|
|
vst1.8 {q0}, [r5]! @ store output
|
|
subs r6, r6, #1
|
|
bne .Lctr_enc_short_loop
|
|
|
|
vmov.i32 q0, #0
|
|
vmov.i32 q1, #0
|
|
vstmia sp!, {q0-q1}
|
|
|
|
ldmia sp!, {r4-r8, pc}
|
|
.size bsaes_ctr32_encrypt_blocks,.-bsaes_ctr32_encrypt_blocks
|
|
.globl bsaes_xts_encrypt
|
|
.type bsaes_xts_encrypt,%function
|
|
.align 4
|
|
bsaes_xts_encrypt:
|
|
mov ip, sp
|
|
stmdb sp!, {r4-r10, lr} @ 0x20
|
|
VFP_ABI_PUSH
|
|
mov r6, sp @ future r3
|
|
|
|
mov r7, r0
|
|
mov r8, r1
|
|
mov r9, r2
|
|
mov r10, r3
|
|
|
|
sub r0, sp, #0x10 @ 0x10
|
|
bic r0, #0xf @ align at 16 bytes
|
|
mov sp, r0
|
|
|
|
#ifdef XTS_CHAIN_TWEAK
|
|
ldr r0, [ip] @ pointer to input tweak
|
|
#else
|
|
@ generate initial tweak
|
|
ldr r0, [ip, #4] @ iv[]
|
|
mov r1, sp
|
|
ldr r2, [ip, #0] @ key2
|
|
bl AES_encrypt
|
|
mov r0,sp @ pointer to initial tweak
|
|
#endif
|
|
|
|
ldr r1, [r10, #240] @ get # of rounds
|
|
mov r3, r6
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
@ allocate the key schedule on the stack
|
|
sub r12, sp, r1, lsl#7 @ 128 bytes per inner round key
|
|
@ add r12, #96 @ size of bit-sliced key schedule
|
|
sub r12, #48 @ place for tweak[9]
|
|
|
|
@ populate the key schedule
|
|
mov r4, r10 @ pass key
|
|
mov r5, r1 @ pass # of rounds
|
|
mov sp, r12
|
|
add r12, #0x90 @ pass key schedule
|
|
bl _bsaes_key_convert
|
|
veor q7, q7, q15 @ fix up last round key
|
|
vstmia r12, {q7} @ save last round key
|
|
#else
|
|
ldr r12, [r10, #244]
|
|
eors r12, #1
|
|
beq 0f
|
|
|
|
str r12, [r10, #244]
|
|
mov r4, r10 @ pass key
|
|
mov r5, r1 @ pass # of rounds
|
|
add r12, r10, #248 @ pass key schedule
|
|
bl _bsaes_key_convert
|
|
veor q7, q7, q15 @ fix up last round key
|
|
vstmia r12, {q7}
|
|
|
|
.align 2
|
|
0: sub sp, #0x90 @ place for tweak[9]
|
|
#endif
|
|
|
|
vld1.8 {q8}, [r0] @ initial tweak
|
|
adr r2, .Lxts_magic
|
|
|
|
subs r9, #0x80
|
|
blo .Lxts_enc_short
|
|
b .Lxts_enc_loop
|
|
|
|
.align 4
|
|
.Lxts_enc_loop:
|
|
vldmia r2, {q5} @ load XTS magic
|
|
vshr.s64 q6, q8, #63
|
|
mov r0, sp
|
|
vand q6, q6, q5
|
|
vadd.u64 q9, q8, q8
|
|
vst1.64 {q8}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q9, #63
|
|
veor q9, q9, q6
|
|
vand q7, q7, q5
|
|
vadd.u64 q10, q9, q9
|
|
vst1.64 {q9}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q10, #63
|
|
veor q10, q10, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q0}, [r7]!
|
|
vadd.u64 q11, q10, q10
|
|
vst1.64 {q10}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q11, #63
|
|
veor q11, q11, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q1}, [r7]!
|
|
veor q0, q0, q8
|
|
vadd.u64 q12, q11, q11
|
|
vst1.64 {q11}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q12, #63
|
|
veor q12, q12, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q2}, [r7]!
|
|
veor q1, q1, q9
|
|
vadd.u64 q13, q12, q12
|
|
vst1.64 {q12}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q13, #63
|
|
veor q13, q13, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q3}, [r7]!
|
|
veor q2, q2, q10
|
|
vadd.u64 q14, q13, q13
|
|
vst1.64 {q13}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q14, #63
|
|
veor q14, q14, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q4}, [r7]!
|
|
veor q3, q3, q11
|
|
vadd.u64 q15, q14, q14
|
|
vst1.64 {q14}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q15, #63
|
|
veor q15, q15, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q5}, [r7]!
|
|
veor q4, q4, q12
|
|
vadd.u64 q8, q15, q15
|
|
vst1.64 {q15}, [r0,:128]!
|
|
vswp d15,d14
|
|
veor q8, q8, q7
|
|
vst1.64 {q8}, [r0,:128] @ next round tweak
|
|
|
|
vld1.8 {q6-q7}, [r7]!
|
|
veor q5, q5, q13
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q6, q6, q14
|
|
mov r5, r1 @ pass rounds
|
|
veor q7, q7, q15
|
|
mov r0, sp
|
|
|
|
bl _bsaes_encrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10-q11}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
vld1.64 {q12-q13}, [r0,:128]!
|
|
veor q1, q1, q9
|
|
veor q8, q4, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
veor q9, q6, q11
|
|
vld1.64 {q14-q15}, [r0,:128]!
|
|
veor q10, q3, q12
|
|
vst1.8 {q8-q9}, [r8]!
|
|
veor q11, q7, q13
|
|
veor q12, q2, q14
|
|
vst1.8 {q10-q11}, [r8]!
|
|
veor q13, q5, q15
|
|
vst1.8 {q12-q13}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
|
|
subs r9, #0x80
|
|
bpl .Lxts_enc_loop
|
|
|
|
.Lxts_enc_short:
|
|
adds r9, #0x70
|
|
bmi .Lxts_enc_done
|
|
|
|
vldmia r2, {q5} @ load XTS magic
|
|
vshr.s64 q7, q8, #63
|
|
mov r0, sp
|
|
vand q7, q7, q5
|
|
vadd.u64 q9, q8, q8
|
|
vst1.64 {q8}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q9, #63
|
|
veor q9, q9, q7
|
|
vand q6, q6, q5
|
|
vadd.u64 q10, q9, q9
|
|
vst1.64 {q9}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q10, #63
|
|
veor q10, q10, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q0}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_enc_1
|
|
vadd.u64 q11, q10, q10
|
|
vst1.64 {q10}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q11, #63
|
|
veor q11, q11, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q1}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_enc_2
|
|
veor q0, q0, q8
|
|
vadd.u64 q12, q11, q11
|
|
vst1.64 {q11}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q12, #63
|
|
veor q12, q12, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q2}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_enc_3
|
|
veor q1, q1, q9
|
|
vadd.u64 q13, q12, q12
|
|
vst1.64 {q12}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q13, #63
|
|
veor q13, q13, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q3}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_enc_4
|
|
veor q2, q2, q10
|
|
vadd.u64 q14, q13, q13
|
|
vst1.64 {q13}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q14, #63
|
|
veor q14, q14, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q4}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_enc_5
|
|
veor q3, q3, q11
|
|
vadd.u64 q15, q14, q14
|
|
vst1.64 {q14}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q15, #63
|
|
veor q15, q15, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q5}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_enc_6
|
|
veor q4, q4, q12
|
|
sub r9, #0x10
|
|
vst1.64 {q15}, [r0,:128] @ next round tweak
|
|
|
|
vld1.8 {q6}, [r7]!
|
|
veor q5, q5, q13
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q6, q6, q14
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_encrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10-q11}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
vld1.64 {q12-q13}, [r0,:128]!
|
|
veor q1, q1, q9
|
|
veor q8, q4, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
veor q9, q6, q11
|
|
vld1.64 {q14}, [r0,:128]!
|
|
veor q10, q3, q12
|
|
vst1.8 {q8-q9}, [r8]!
|
|
veor q11, q7, q13
|
|
veor q12, q2, q14
|
|
vst1.8 {q10-q11}, [r8]!
|
|
vst1.8 {q12}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_enc_done
|
|
.align 4
|
|
.Lxts_enc_6:
|
|
vst1.64 {q14}, [r0,:128] @ next round tweak
|
|
|
|
veor q4, q4, q12
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q5, q5, q13
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_encrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10-q11}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
vld1.64 {q12-q13}, [r0,:128]!
|
|
veor q1, q1, q9
|
|
veor q8, q4, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
veor q9, q6, q11
|
|
veor q10, q3, q12
|
|
vst1.8 {q8-q9}, [r8]!
|
|
veor q11, q7, q13
|
|
vst1.8 {q10-q11}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_enc_done
|
|
|
|
@ put this in range for both ARM and Thumb mode adr instructions
|
|
.align 5
|
|
.Lxts_magic:
|
|
.quad 1, 0x87
|
|
|
|
.align 5
|
|
.Lxts_enc_5:
|
|
vst1.64 {q13}, [r0,:128] @ next round tweak
|
|
|
|
veor q3, q3, q11
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q4, q4, q12
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_encrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10-q11}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
vld1.64 {q12}, [r0,:128]!
|
|
veor q1, q1, q9
|
|
veor q8, q4, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
veor q9, q6, q11
|
|
veor q10, q3, q12
|
|
vst1.8 {q8-q9}, [r8]!
|
|
vst1.8 {q10}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_enc_done
|
|
.align 4
|
|
.Lxts_enc_4:
|
|
vst1.64 {q12}, [r0,:128] @ next round tweak
|
|
|
|
veor q2, q2, q10
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q3, q3, q11
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_encrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10-q11}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
veor q1, q1, q9
|
|
veor q8, q4, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
veor q9, q6, q11
|
|
vst1.8 {q8-q9}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_enc_done
|
|
.align 4
|
|
.Lxts_enc_3:
|
|
vst1.64 {q11}, [r0,:128] @ next round tweak
|
|
|
|
veor q1, q1, q9
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q2, q2, q10
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_encrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
veor q1, q1, q9
|
|
veor q8, q4, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
vst1.8 {q8}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_enc_done
|
|
.align 4
|
|
.Lxts_enc_2:
|
|
vst1.64 {q10}, [r0,:128] @ next round tweak
|
|
|
|
veor q0, q0, q8
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q1, q1, q9
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_encrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
veor q1, q1, q9
|
|
vst1.8 {q0-q1}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_enc_done
|
|
.align 4
|
|
.Lxts_enc_1:
|
|
mov r0, sp
|
|
veor q0, q8
|
|
mov r1, sp
|
|
vst1.8 {q0}, [sp,:128]
|
|
mov r2, r10
|
|
mov r4, r3 @ preserve fp
|
|
|
|
bl AES_encrypt
|
|
|
|
vld1.8 {q0}, [sp,:128]
|
|
veor q0, q0, q8
|
|
vst1.8 {q0}, [r8]!
|
|
mov r3, r4
|
|
|
|
vmov q8, q9 @ next round tweak
|
|
|
|
.Lxts_enc_done:
|
|
#ifndef XTS_CHAIN_TWEAK
|
|
adds r9, #0x10
|
|
beq .Lxts_enc_ret
|
|
sub r6, r8, #0x10
|
|
|
|
.Lxts_enc_steal:
|
|
ldrb r0, [r7], #1
|
|
ldrb r1, [r8, #-0x10]
|
|
strb r0, [r8, #-0x10]
|
|
strb r1, [r8], #1
|
|
|
|
subs r9, #1
|
|
bhi .Lxts_enc_steal
|
|
|
|
vld1.8 {q0}, [r6]
|
|
mov r0, sp
|
|
veor q0, q0, q8
|
|
mov r1, sp
|
|
vst1.8 {q0}, [sp,:128]
|
|
mov r2, r10
|
|
mov r4, r3 @ preserve fp
|
|
|
|
bl AES_encrypt
|
|
|
|
vld1.8 {q0}, [sp,:128]
|
|
veor q0, q0, q8
|
|
vst1.8 {q0}, [r6]
|
|
mov r3, r4
|
|
#endif
|
|
|
|
.Lxts_enc_ret:
|
|
bic r0, r3, #0xf
|
|
vmov.i32 q0, #0
|
|
vmov.i32 q1, #0
|
|
#ifdef XTS_CHAIN_TWEAK
|
|
ldr r1, [r3, #0x20+VFP_ABI_FRAME] @ chain tweak
|
|
#endif
|
|
.Lxts_enc_bzero: @ wipe key schedule [if any]
|
|
vstmia sp!, {q0-q1}
|
|
cmp sp, r0
|
|
bne .Lxts_enc_bzero
|
|
|
|
mov sp, r3
|
|
#ifdef XTS_CHAIN_TWEAK
|
|
vst1.8 {q8}, [r1]
|
|
#endif
|
|
VFP_ABI_POP
|
|
ldmia sp!, {r4-r10, pc} @ return
|
|
|
|
.size bsaes_xts_encrypt,.-bsaes_xts_encrypt
|
|
|
|
.globl bsaes_xts_decrypt
|
|
.type bsaes_xts_decrypt,%function
|
|
.align 4
|
|
bsaes_xts_decrypt:
|
|
mov ip, sp
|
|
stmdb sp!, {r4-r10, lr} @ 0x20
|
|
VFP_ABI_PUSH
|
|
mov r6, sp @ future r3
|
|
|
|
mov r7, r0
|
|
mov r8, r1
|
|
mov r9, r2
|
|
mov r10, r3
|
|
|
|
sub r0, sp, #0x10 @ 0x10
|
|
bic r0, #0xf @ align at 16 bytes
|
|
mov sp, r0
|
|
|
|
#ifdef XTS_CHAIN_TWEAK
|
|
ldr r0, [ip] @ pointer to input tweak
|
|
#else
|
|
@ generate initial tweak
|
|
ldr r0, [ip, #4] @ iv[]
|
|
mov r1, sp
|
|
ldr r2, [ip, #0] @ key2
|
|
bl AES_encrypt
|
|
mov r0, sp @ pointer to initial tweak
|
|
#endif
|
|
|
|
ldr r1, [r10, #240] @ get # of rounds
|
|
mov r3, r6
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
@ allocate the key schedule on the stack
|
|
sub r12, sp, r1, lsl#7 @ 128 bytes per inner round key
|
|
@ add r12, #96 @ size of bit-sliced key schedule
|
|
sub r12, #48 @ place for tweak[9]
|
|
|
|
@ populate the key schedule
|
|
mov r4, r10 @ pass key
|
|
mov r5, r1 @ pass # of rounds
|
|
mov sp, r12
|
|
add r12, #0x90 @ pass key schedule
|
|
bl _bsaes_key_convert
|
|
add r4, sp, #0x90
|
|
vldmia r4, {q6}
|
|
vstmia r12, {q15} @ save last round key
|
|
veor q7, q7, q6 @ fix up round 0 key
|
|
vstmia r4, {q7}
|
|
#else
|
|
ldr r12, [r10, #244]
|
|
eors r12, #1
|
|
beq 0f
|
|
|
|
str r12, [r10, #244]
|
|
mov r4, r10 @ pass key
|
|
mov r5, r1 @ pass # of rounds
|
|
add r12, r10, #248 @ pass key schedule
|
|
bl _bsaes_key_convert
|
|
add r4, r10, #248
|
|
vldmia r4, {q6}
|
|
vstmia r12, {q15} @ save last round key
|
|
veor q7, q7, q6 @ fix up round 0 key
|
|
vstmia r4, {q7}
|
|
|
|
.align 2
|
|
0: sub sp, #0x90 @ place for tweak[9]
|
|
#endif
|
|
vld1.8 {q8}, [r0] @ initial tweak
|
|
adr r2, .Lxts_magic
|
|
|
|
tst r9, #0xf @ if not multiple of 16
|
|
it ne @ Thumb2 thing, sanity check in ARM
|
|
subne r9, #0x10 @ subtract another 16 bytes
|
|
subs r9, #0x80
|
|
|
|
blo .Lxts_dec_short
|
|
b .Lxts_dec_loop
|
|
|
|
.align 4
|
|
.Lxts_dec_loop:
|
|
vldmia r2, {q5} @ load XTS magic
|
|
vshr.s64 q6, q8, #63
|
|
mov r0, sp
|
|
vand q6, q6, q5
|
|
vadd.u64 q9, q8, q8
|
|
vst1.64 {q8}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q9, #63
|
|
veor q9, q9, q6
|
|
vand q7, q7, q5
|
|
vadd.u64 q10, q9, q9
|
|
vst1.64 {q9}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q10, #63
|
|
veor q10, q10, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q0}, [r7]!
|
|
vadd.u64 q11, q10, q10
|
|
vst1.64 {q10}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q11, #63
|
|
veor q11, q11, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q1}, [r7]!
|
|
veor q0, q0, q8
|
|
vadd.u64 q12, q11, q11
|
|
vst1.64 {q11}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q12, #63
|
|
veor q12, q12, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q2}, [r7]!
|
|
veor q1, q1, q9
|
|
vadd.u64 q13, q12, q12
|
|
vst1.64 {q12}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q13, #63
|
|
veor q13, q13, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q3}, [r7]!
|
|
veor q2, q2, q10
|
|
vadd.u64 q14, q13, q13
|
|
vst1.64 {q13}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q14, #63
|
|
veor q14, q14, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q4}, [r7]!
|
|
veor q3, q3, q11
|
|
vadd.u64 q15, q14, q14
|
|
vst1.64 {q14}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q15, #63
|
|
veor q15, q15, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q5}, [r7]!
|
|
veor q4, q4, q12
|
|
vadd.u64 q8, q15, q15
|
|
vst1.64 {q15}, [r0,:128]!
|
|
vswp d15,d14
|
|
veor q8, q8, q7
|
|
vst1.64 {q8}, [r0,:128] @ next round tweak
|
|
|
|
vld1.8 {q6-q7}, [r7]!
|
|
veor q5, q5, q13
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q6, q6, q14
|
|
mov r5, r1 @ pass rounds
|
|
veor q7, q7, q15
|
|
mov r0, sp
|
|
|
|
bl _bsaes_decrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10-q11}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
vld1.64 {q12-q13}, [r0,:128]!
|
|
veor q1, q1, q9
|
|
veor q8, q6, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
veor q9, q4, q11
|
|
vld1.64 {q14-q15}, [r0,:128]!
|
|
veor q10, q2, q12
|
|
vst1.8 {q8-q9}, [r8]!
|
|
veor q11, q7, q13
|
|
veor q12, q3, q14
|
|
vst1.8 {q10-q11}, [r8]!
|
|
veor q13, q5, q15
|
|
vst1.8 {q12-q13}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
|
|
subs r9, #0x80
|
|
bpl .Lxts_dec_loop
|
|
|
|
.Lxts_dec_short:
|
|
adds r9, #0x70
|
|
bmi .Lxts_dec_done
|
|
|
|
vldmia r2, {q5} @ load XTS magic
|
|
vshr.s64 q7, q8, #63
|
|
mov r0, sp
|
|
vand q7, q7, q5
|
|
vadd.u64 q9, q8, q8
|
|
vst1.64 {q8}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q9, #63
|
|
veor q9, q9, q7
|
|
vand q6, q6, q5
|
|
vadd.u64 q10, q9, q9
|
|
vst1.64 {q9}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q10, #63
|
|
veor q10, q10, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q0}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_dec_1
|
|
vadd.u64 q11, q10, q10
|
|
vst1.64 {q10}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q11, #63
|
|
veor q11, q11, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q1}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_dec_2
|
|
veor q0, q0, q8
|
|
vadd.u64 q12, q11, q11
|
|
vst1.64 {q11}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q12, #63
|
|
veor q12, q12, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q2}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_dec_3
|
|
veor q1, q1, q9
|
|
vadd.u64 q13, q12, q12
|
|
vst1.64 {q12}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q13, #63
|
|
veor q13, q13, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q3}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_dec_4
|
|
veor q2, q2, q10
|
|
vadd.u64 q14, q13, q13
|
|
vst1.64 {q13}, [r0,:128]!
|
|
vswp d13,d12
|
|
vshr.s64 q7, q14, #63
|
|
veor q14, q14, q6
|
|
vand q7, q7, q5
|
|
vld1.8 {q4}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_dec_5
|
|
veor q3, q3, q11
|
|
vadd.u64 q15, q14, q14
|
|
vst1.64 {q14}, [r0,:128]!
|
|
vswp d15,d14
|
|
vshr.s64 q6, q15, #63
|
|
veor q15, q15, q7
|
|
vand q6, q6, q5
|
|
vld1.8 {q5}, [r7]!
|
|
subs r9, #0x10
|
|
bmi .Lxts_dec_6
|
|
veor q4, q4, q12
|
|
sub r9, #0x10
|
|
vst1.64 {q15}, [r0,:128] @ next round tweak
|
|
|
|
vld1.8 {q6}, [r7]!
|
|
veor q5, q5, q13
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q6, q6, q14
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_decrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10-q11}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
vld1.64 {q12-q13}, [r0,:128]!
|
|
veor q1, q1, q9
|
|
veor q8, q6, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
veor q9, q4, q11
|
|
vld1.64 {q14}, [r0,:128]!
|
|
veor q10, q2, q12
|
|
vst1.8 {q8-q9}, [r8]!
|
|
veor q11, q7, q13
|
|
veor q12, q3, q14
|
|
vst1.8 {q10-q11}, [r8]!
|
|
vst1.8 {q12}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_dec_done
|
|
.align 4
|
|
.Lxts_dec_6:
|
|
vst1.64 {q14}, [r0,:128] @ next round tweak
|
|
|
|
veor q4, q4, q12
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q5, q5, q13
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_decrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10-q11}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
vld1.64 {q12-q13}, [r0,:128]!
|
|
veor q1, q1, q9
|
|
veor q8, q6, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
veor q9, q4, q11
|
|
veor q10, q2, q12
|
|
vst1.8 {q8-q9}, [r8]!
|
|
veor q11, q7, q13
|
|
vst1.8 {q10-q11}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_dec_done
|
|
.align 4
|
|
.Lxts_dec_5:
|
|
vst1.64 {q13}, [r0,:128] @ next round tweak
|
|
|
|
veor q3, q3, q11
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q4, q4, q12
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_decrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10-q11}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
vld1.64 {q12}, [r0,:128]!
|
|
veor q1, q1, q9
|
|
veor q8, q6, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
veor q9, q4, q11
|
|
veor q10, q2, q12
|
|
vst1.8 {q8-q9}, [r8]!
|
|
vst1.8 {q10}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_dec_done
|
|
.align 4
|
|
.Lxts_dec_4:
|
|
vst1.64 {q12}, [r0,:128] @ next round tweak
|
|
|
|
veor q2, q2, q10
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q3, q3, q11
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_decrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10-q11}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
veor q1, q1, q9
|
|
veor q8, q6, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
veor q9, q4, q11
|
|
vst1.8 {q8-q9}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_dec_done
|
|
.align 4
|
|
.Lxts_dec_3:
|
|
vst1.64 {q11}, [r0,:128] @ next round tweak
|
|
|
|
veor q1, q1, q9
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q2, q2, q10
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_decrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
vld1.64 {q10}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
veor q1, q1, q9
|
|
veor q8, q6, q10
|
|
vst1.8 {q0-q1}, [r8]!
|
|
vst1.8 {q8}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_dec_done
|
|
.align 4
|
|
.Lxts_dec_2:
|
|
vst1.64 {q10}, [r0,:128] @ next round tweak
|
|
|
|
veor q0, q0, q8
|
|
#ifndef BSAES_ASM_EXTENDED_KEY
|
|
add r4, sp, #0x90 @ pass key schedule
|
|
#else
|
|
add r4, r10, #248 @ pass key schedule
|
|
#endif
|
|
veor q1, q1, q9
|
|
mov r5, r1 @ pass rounds
|
|
mov r0, sp
|
|
|
|
bl _bsaes_decrypt8
|
|
|
|
vld1.64 {q8-q9}, [r0,:128]!
|
|
veor q0, q0, q8
|
|
veor q1, q1, q9
|
|
vst1.8 {q0-q1}, [r8]!
|
|
|
|
vld1.64 {q8}, [r0,:128] @ next round tweak
|
|
b .Lxts_dec_done
|
|
.align 4
|
|
.Lxts_dec_1:
|
|
mov r0, sp
|
|
veor q0, q8
|
|
mov r1, sp
|
|
vst1.8 {q0}, [sp,:128]
|
|
mov r2, r10
|
|
mov r4, r3 @ preserve fp
|
|
mov r5, r2 @ preserve magic
|
|
|
|
bl AES_decrypt
|
|
|
|
vld1.8 {q0}, [sp,:128]
|
|
veor q0, q0, q8
|
|
vst1.8 {q0}, [r8]!
|
|
mov r3, r4
|
|
mov r2, r5
|
|
|
|
vmov q8, q9 @ next round tweak
|
|
|
|
.Lxts_dec_done:
|
|
#ifndef XTS_CHAIN_TWEAK
|
|
adds r9, #0x10
|
|
beq .Lxts_dec_ret
|
|
|
|
@ calculate one round of extra tweak for the stolen ciphertext
|
|
vldmia r2, {q5}
|
|
vshr.s64 q6, q8, #63
|
|
vand q6, q6, q5
|
|
vadd.u64 q9, q8, q8
|
|
vswp d13,d12
|
|
veor q9, q9, q6
|
|
|
|
@ perform the final decryption with the last tweak value
|
|
vld1.8 {q0}, [r7]!
|
|
mov r0, sp
|
|
veor q0, q0, q9
|
|
mov r1, sp
|
|
vst1.8 {q0}, [sp,:128]
|
|
mov r2, r10
|
|
mov r4, r3 @ preserve fp
|
|
|
|
bl AES_decrypt
|
|
|
|
vld1.8 {q0}, [sp,:128]
|
|
veor q0, q0, q9
|
|
vst1.8 {q0}, [r8]
|
|
|
|
mov r6, r8
|
|
.Lxts_dec_steal:
|
|
ldrb r1, [r8]
|
|
ldrb r0, [r7], #1
|
|
strb r1, [r8, #0x10]
|
|
strb r0, [r8], #1
|
|
|
|
subs r9, #1
|
|
bhi .Lxts_dec_steal
|
|
|
|
vld1.8 {q0}, [r6]
|
|
mov r0, sp
|
|
veor q0, q8
|
|
mov r1, sp
|
|
vst1.8 {q0}, [sp,:128]
|
|
mov r2, r10
|
|
|
|
bl AES_decrypt
|
|
|
|
vld1.8 {q0}, [sp,:128]
|
|
veor q0, q0, q8
|
|
vst1.8 {q0}, [r6]
|
|
mov r3, r4
|
|
#endif
|
|
|
|
.Lxts_dec_ret:
|
|
bic r0, r3, #0xf
|
|
vmov.i32 q0, #0
|
|
vmov.i32 q1, #0
|
|
#ifdef XTS_CHAIN_TWEAK
|
|
ldr r1, [r3, #0x20+VFP_ABI_FRAME] @ chain tweak
|
|
#endif
|
|
.Lxts_dec_bzero: @ wipe key schedule [if any]
|
|
vstmia sp!, {q0-q1}
|
|
cmp sp, r0
|
|
bne .Lxts_dec_bzero
|
|
|
|
mov sp, r3
|
|
#ifdef XTS_CHAIN_TWEAK
|
|
vst1.8 {q8}, [r1]
|
|
#endif
|
|
VFP_ABI_POP
|
|
ldmia sp!, {r4-r10, pc} @ return
|
|
|
|
.size bsaes_xts_decrypt,.-bsaes_xts_decrypt
|
|
#endif
|