Revision - 7fe1e2c - Let lerp lowering incorporate a final cast. (#6480) - origin: https://github.com/halide/Halide

visit type:

https://github.com/halide/Halide

21 March 2024, 02:33:35 UTC

Revision 7fe1e2cd21eba9a0793f5198761163997805c06c authored by Andrew Adams on 10 December 2021, 15:06:30 UTC, committed by GitHub on 10 December 2021, 15:06:30 UTC

Let lerp lowering incorporate a final cast. (#6480)

* Let lerp lowering incorporate a final cast

This lets it save a few instructions on x86 and arm.

cast(UInt(16), lerp(some_u8s)) produces the following, before and after
this PR

Before:

x86:

	vmovdqu	(%r15,%r13), %xmm4
	vpmovzxbw	-2(%r15,%r13), %ymm5
	vpxor	%xmm0, %xmm4, %xmm6
	vpmovzxbw	%xmm6, %ymm6
	vpmovzxbw	-1(%r15,%r13), %ymm7
	vpmullw	%ymm6, %ymm5, %ymm5
	vpmovzxbw	%xmm4, %ymm4
	vpmullw	%ymm4, %ymm7, %ymm4
	vpaddw	%ymm4, %ymm5, %ymm4
	vpaddw	%ymm1, %ymm4, %ymm4
	vpmulhuw	%ymm2, %ymm4, %ymm4
	vpsrlw	$7, %ymm4, %ymm4
	vpand	%ymm3, %ymm4, %ymm4
	vmovdqu	%ymm4, (%rbx,%r13,2)
	addq	$16, %r13
	decq	%r10
	jne	.LBB0_10
arm:

	ldr	q0, [x17]
	ldur	q2, [x17, #-1]
	ldur	q1, [x17, #-2]
	subs	x0, x0, #1                      // =1
	mvn	v3.16b, v0.16b
	umull	v4.8h, v2.8b, v0.8b
	umull2	v0.8h, v2.16b, v0.16b
	umlal	v4.8h, v1.8b, v3.8b
	umlal2	v0.8h, v1.16b, v3.16b
	urshr	v1.8h, v4.8h, #8
	urshr	v2.8h, v0.8h, #8
	raddhn	v1.8b, v1.8h, v4.8h
	raddhn	v0.8b, v2.8h, v0.8h
	ushll	v0.8h, v0.8b, #0
	ushll	v1.8h, v1.8b, #0
	add	x17, x17, #16                   // =16
	stp	q1, q0, [x18, #-16]
	add	x18, x18, #32                   // =32
	b.ne	.LBB0_10

After:

x86:

	vpmovzxbw	-2(%r15,%r13), %ymm3
	vmovdqu	(%r15,%r13), %xmm4
	vpxor	%xmm0, %xmm4, %xmm5
	vpmovzxbw	%xmm5, %ymm5
	vpmullw	%ymm5, %ymm3, %ymm3
	vpmovzxbw	-1(%r15,%r13), %ymm5
	vpmovzxbw	%xmm4, %ymm4
	vpmullw	%ymm4, %ymm5, %ymm4
	vpaddw	%ymm4, %ymm3, %ymm3
	vpaddw	%ymm1, %ymm3, %ymm3
	vpmulhuw	%ymm2, %ymm3, %ymm3
	vpsrlw	$7, %ymm3, %ymm3
	vmovdqu	%ymm3, (%rbp,%r13,2)
	addq	$16, %r13
	decq	%r10
	jne	.LBB0_10

arm:

	ldr	q0, [x17]
	ldur	q2, [x17, #-1]
	ldur	q1, [x17, #-2]
	subs	x0, x0, #1                      // =1
	mvn	v3.16b, v0.16b
	umull	v4.8h, v2.8b, v0.8b
	umull2	v0.8h, v2.16b, v0.16b
	umlal	v4.8h, v1.8b, v3.8b
	umlal2	v0.8h, v1.16b, v3.16b
	ursra	v4.8h, v4.8h, #8
	ursra	v0.8h, v0.8h, #8
	urshr	v1.8h, v4.8h, #8
	urshr	v0.8h, v0.8h, #8
	add	x17, x17, #16                   // =16
	stp	q1, q0, [x18, #-16]
	add	x18, x18, #32                   // =32
	b.ne	.LBB0_10

So on X86 we skip a pointless and instruction, and on ARM we get a
rounding add and shift right instead of a rounding narrowing add shift
right followed by a widen.

* Add test

* Fix bug in test

* Don't produce out-of-range lerp values

1 parent bcfd6af

Files
Changes

Permalinks

Tip revision: 7fe1e2cd21eba9a0793f5198761163997805c06c authored by Andrew Adams on 10 December 2021, 15:06:30 UTC
Let lerp lowering incorporate a final cast. (#6480)

Tip revision: 7fe1e2c

File	Mode	Size
.github
apps
cmake
dependencies
doc
packaging
python_bindings
src
test
tools
tutorial
util
.clang-format	-rw-r--r--	1.4 KB
.clang-format-ignore	-rw-r--r--	265 bytes
.clang-tidy	-rw-r--r--	1.8 KB
.gitattributes	-rw-r--r--	342 bytes
.gitignore	-rw-r--r--	1.1 KB
.gitmodules	-rw-r--r--	0 bytes
CMakeLists.txt	-rw-r--r--	5.5 KB
CMakePresets.json	-rw-r--r--	5.2 KB
CODE_OF_CONDUCT.md	-rw-r--r--	3.5 KB
LICENSE.txt	-rw-r--r--	3.2 KB
Makefile	-rw-r--r--	101.0 KB
README.md	-rw-r--r--	16.4 KB
README_cmake.md	-rw-r--r--	69.2 KB
README_rungen.md	-rw-r--r--	12.1 KB
README_webassembly.md	-rw-r--r--	8.4 KB
run-clang-format.sh	-rwxr-xr-x	1.4 KB
run-clang-tidy.sh	-rwxr-xr-x	3.2 KB

Showing with 0 additions and 0 deletions (0 / 0 diffs computed)

Computing file changes ...

https://github.com/halide/Halide

Let lerp lowering incorporate a final cast. (#6480)

README.md