// Custom Forward Derivative Function reference __attributeTarget(FunctionDeclBase) attribute_syntax [ForwardDerivative(function)] : ForwardDerivativeAttribute; __attributeTarget(FunctionDeclBase) attribute_syntax [BackwardDerivative(function)] : BackwardDerivativeAttribute; __attributeTarget(FunctionDeclBase) attribute_syntax [PrimalSubstitute(function)] : PrimalSubstituteAttribute; __attributeTarget(FunctionDeclBase) attribute_syntax [ForwardDerivativeOf(function)] : ForwardDerivativeOfAttribute; __attributeTarget(FunctionDeclBase) attribute_syntax [BackwardDerivativeOf(function)] : BackwardDerivativeOfAttribute; __attributeTarget(FunctionDeclBase) attribute_syntax [PrimalSubstituteOf(function)] : PrimalSubstituteOfAttribute; __attributeTarget(DeclBase) attribute_syntax [DerivativeMember(memberName)] : DerivativeMemberAttribute; // Exclude "this" parameter from differentiation. __attributeTarget(FunctionDeclBase) attribute_syntax [NoDiffThis] : NoDiffThisAttribute; // A 'none-type' that acts as a run-time sentinel for zero differentials. public struct NullDifferential : IDifferentiable { // for now, we'll use at least one field to make sure the type is non-empty uint dummy; typedef NullDifferential Differential; [Differentiable] [ForceInline] static Differential dzero() { return { 0 }; } [Differentiable] [ForceInline] static Differential dadd(Differential, Differential) { return { 0 }; } [Differentiable] [ForceInline] static Differential dmul(T, Differential) { return { 0 }; } }; // Existential check for null differential type __intrinsic_op($(kIROp_IsDifferentialNull)) bool isDifferentialNull(IDifferentiable obj); /// Represents a GPU view of a tensor. __generic __magic_type(TensorViewType) __intrinsic_type($(kIROp_TensorViewType)) struct TensorView { __target_intrinsic(cuda, "$0.data_ptr<$G0>()") [__NoSideEffect] Ptr data_ptr(); __target_intrinsic(cuda, "$0.data_ptr_at<$G0>($1)") [__NoSideEffect] Ptr data_ptr_at(uint index); __generic __target_intrinsic(cuda, "$0.data_ptr_at<$G0>($1)") [__NoSideEffect] Ptr data_ptr_at(vector index); __implicit_conversion($(kConversionCost_ImplicitDereference)) __intrinsic_op($(kIROp_TorchTensorGetView)) __init(TorchTensor t); __target_intrinsic(cuda, "$0.load<$G0>($1)") [__NoSideEffect] T load(uint x); __target_intrinsic(cuda, "$0.load<$G0>($1, $2)") [__NoSideEffect] T load(uint x, uint y); __target_intrinsic(cuda, "$0.load<$G0>($1, $2, $3)") [__NoSideEffect] T load(uint x, uint y, uint z); __target_intrinsic(cuda, "$0.load<$G0>($1, $2, $3, $4)") [__NoSideEffect] T load(uint x, uint y, uint z, uint w); __target_intrinsic(cuda, "$0.load<$G0>($1, $2, $3, $4, $5)") [__NoSideEffect] T load(uint i0, uint i1, uint i2, uint i3, uint i4); [__NoSideEffect] __generic __target_intrinsic(cuda, "$0.load<$TR>($1)") T load(vector index); __target_intrinsic(cuda, "$0.store<$G0>($1, $2)") void store(uint x, T val); __target_intrinsic(cuda, "$0.store<$G0>($1, $2, $3)") void store(uint x, uint y, T val); __target_intrinsic(cuda, "$0.store<$G0>($1, $2, $3, $4)") void store(uint x, uint y, uint z, T val); __target_intrinsic(cuda, "$0.store<$G0>($1, $2, $3, $4, $5)") void store(uint x, uint y, uint z, uint w, T val); __target_intrinsic(cuda, "$0.store<$G0>($1, $2, $3, $4, $5, $6)") void store(uint i0, uint i1, uint i2, uint i3, uint i4, T val); __generic __target_intrinsic(cuda, "$0.store<$T2>($1, $2)") void store(vector index, T val); __target_intrinsic(cuda, "*($3) = atomicAdd($0.data_ptr_at<$T2>($1), $2)") void InterlockedAdd(uint index, T val, out T oldVal); __generic __target_intrinsic(cuda, "*($3) = atomicAdd($0.data_ptr_at<$T2>($1), $2)") void InterlockedAdd(vector index, T val, out T oldVal); __target_intrinsic(cuda, "$0.dimensionCount") [__readNone] uint dims(); __target_intrinsic(cuda, "$0.sizes[$1]") [__readNone] uint size(uint i); __target_intrinsic(cuda, "$0.strides[$1]") [__readNone] uint stride(uint i); __subscript(uint index) -> T { [ForceInline] [__NoSideEffect] get { return load(index); } [ForceInline] set { store(index, newValue); } __target_intrinsic(cuda, "$0.load<$G0>($1)") [__NoSideEffect] ref; } __subscript(uint i1, uint i2) -> T { [ForceInline] [__NoSideEffect] get { return load(i1, i2); } [ForceInline] set { store(i1, i2, newValue); } __target_intrinsic(cuda, "$0.load<$G0>($1, $2)") [__NoSideEffect] ref; } __subscript(uint2 i) -> T { [ForceInline] [__NoSideEffect] get { return load(i.x, i.y); } [ForceInline] set { store(i.x, i.y, newValue); } __target_intrinsic(cuda, "$0.load<$G0>($1.x, $1.y)") [__NoSideEffect] ref; } __subscript(uint i1, uint i2, uint i3) -> T { [ForceInline] [__NoSideEffect] get { return load(i1, i2, i3); } [ForceInline] set { store(i1, i2, i3, newValue); } __target_intrinsic(cuda, "$0.load<$G0>($1, $2, $3)") [__NoSideEffect] ref; } __subscript(uint3 i) -> T { [ForceInline] [__NoSideEffect] get { return load(i.x, i.y, i.z); } [ForceInline] set { store(i.x, i.y, i.z, newValue); } __target_intrinsic(cuda, "$0.load<$G0>($1.x, $1.y, $1.z)") [__NoSideEffect] ref; } __subscript(uint i1, uint i2, uint i3, uint i4) -> T { [ForceInline] [__NoSideEffect] get { return load(i1, i2, i3, i4); } [ForceInline] set { store(i1, i2, i3, i4, newValue); } __target_intrinsic(cuda, "$0.load<$G0>($1, $2, $3, $4)") [__NoSideEffect] ref; } __subscript(uint4 i) -> T { [__NoSideEffect][ForceInline] get { return load(i.x, i.y, i.z, i.w); } [ForceInline] set { store(i.x, i.y, i.z, i.w, newValue); } __target_intrinsic(cuda, "$0.load<$G0>($1.x, $1.y, $1.z, $1.w)") [__NoSideEffect] ref; } __subscript(uint i1, uint i2, uint i3, uint i4, uint i5) -> T { [ForceInline] [__NoSideEffect] get { return load(i1, i2, i3, i4, i5); } [ForceInline] set { store(i1, i2, i3, i4, i5, newValue); } __target_intrinsic(cuda, "$0.load<$G0>($1, $2, $3, $4, $5)") [__NoSideEffect] ref; } } ${{{{ for (auto atomicIntegerTypeName : kCudaAtomicIntegerTypes) { }}}} extension TensorView<$(atomicIntegerTypeName)> { typealias __Element = $(atomicIntegerTypeName); __target_intrinsic(cuda, "*($3) = atomicMin($0.data_ptr_at<$T2>($1), $2)") void InterlockedMin(uint index, __Element val, out __Element oldVal); __generic __target_intrinsic(cuda, "*($3) = atomicMin($0.data_ptr_at<$T2>($1), $2)") void InterlockedMin(vector index, __Element val, out __Element oldVal); __target_intrinsic(cuda, "*($3) = atomicMax($0.data_ptr_at<$T2>($1), $2)") void InterlockedMax(uint index, __Element val, out __Element oldVal); __generic __target_intrinsic(cuda, "*($3) = atomicMax($0.data_ptr_at<$T2>($1), $2)") void InterlockedMax(vector index, __Element val, out __Element oldVal); __target_intrinsic(cuda, "*($3) = atomicAnd($0.data_ptr_at<$T2>($1), $2)") void InterlockedAnd(uint index, __Element val, out __Element oldVal); __generic __target_intrinsic(cuda, "*($3) = atomicAnd($0.data_ptr_at<$T2>($1), $2)") void InterlockedAnd(vector index, __Element val, out __Element oldVal); __target_intrinsic(cuda, "*($3) = atomicOr($0.data_ptr_at<$T2>($1), $2)") void InterlockedOr(uint index, __Element val, out __Element oldVal); __generic __target_intrinsic(cuda, "*($3) = atomicOr($0.data_ptr_at<$T2>($1), $2)") void InterlockedOr(vector index, __Element val, out __Element oldVal); __target_intrinsic(cuda, "*($3) = atomicXor($0.data_ptr_at<$T2>($1), $2)") void InterlockedXor(uint index, __Element val, out __Element oldVal); __generic __target_intrinsic(cuda, "*($3) = atomicXor($0.data_ptr_at<$T2>($1), $2)") void InterlockedXor(vector index, __Element val, out __Element oldVal); __target_intrinsic(cuda, "*($3) = atomicExch($0.data_ptr_at<$T2>($1), $2)") void InterlockedExchange(uint index, __Element va, out __Element oldVall); __generic __target_intrinsic(cuda, "*($3) = atomicExch($0.data_ptr_at<$T2>($1), $2)") void InterlockedExchange(vector index, __Element val, out __Element oldVal); __target_intrinsic(cuda, "atomicCAS($0.data_ptr_at<$T2>($1), $2, $3)") void InterlockedCompareExchange(uint index, __Element compare, __Element val); __generic __target_intrinsic(cuda, "atomicCAS($0.data_ptr_at<$T2>($1), $2, $3)") void InterlockedCompareExchange(vector index, __Element compare, __Element val); } ${{{{ } // end for atomicIntegerTypeName }}}} extension TensorView { __target_intrinsic(cuda, "*($3) = atomicExch($0.data_ptr_at($1), $2)") float InterlockedExchange(uint index, float val, out float oldVal); __generic __target_intrinsic(cuda, "*($3) = atomicExch($0.data_ptr_at($1), $2)") float InterlockedExchange(vector index, float val, out float oldVal); __target_intrinsic(cuda, "atomicCAS($0.data_ptr_at($1), slang_bit_cast($2), slang_bit_cast($3))") void InterlockedCompareExchange(uint index, float compare, float val); __generic __target_intrinsic(cuda, "atomicCAS($0.data_ptr_at($1), slang_bit_cast($2), slang_bit_cast($3))") void InterlockedCompareExchange(vector index, float compare, float val); } interface IDiffTensorWrapper { // Derivatives for universal load/store operations. __generic T load_forward(uint i); __generic T load_forward(vector i); __generic void load_backward(uint i, T dOut); __generic void load_backward(vector i, T dOut); __generic void store_forward(uint i, T dx); __generic void store_forward(vector i, T dx); __generic T store_backward(uint i); __generic T store_backward(vector i); // Derivatives for loadOnce/storeOnce operations. These operations // are designed to only run once per-address and don't need atomic // gradient handling. // __generic T loadOnce_forward(uint i); __generic T loadOnce_forward(vector i); __generic void loadOnce_backward(uint i, T dOut); __generic void loadOnce_backward(vector i, T dOut); __generic void storeOnce_forward(uint i, T dx); __generic void storeOnce_forward(vector i, T dx); __generic T storeOnce_backward(uint i); __generic T storeOnce_backward(vector i); }; struct AtomicAdd : IDiffTensorWrapper { TensorView diff; // Derivatives for universal load/store operations. __generic T load_forward(uint i) { return __realCast(diff.load(i)); } __generic T load_forward(vector i) { return __realCast(diff.load(i)); } __generic void load_backward(uint i, T dOut) { float oldVal; diff.InterlockedAdd(i, __realCast(dOut), oldVal); } __generic void load_backward(vector i, T dOut) { float oldVal; diff.InterlockedAdd(i, __realCast(dOut), oldVal); } __generic void store_forward(uint i, T dx) { diff.store(i, __realCast(dx)); } __generic void store_forward(vector i, T dx) { diff.store(i, __realCast(dx)); } __generic T store_backward(uint i) { float oldVal; diff.InterlockedExchange(i, (float)0, oldVal); return __realCast(oldVal); } __generic T store_backward(vector i) { float oldVal; diff.InterlockedExchange(i, (float)0, oldVal); return __realCast(oldVal); } // Derivatives for loadOnce/storeOnce operations. These operations // are designed to only run once per-address and don't need atomic // gradient handling. // __generic T loadOnce_forward(uint i) { return __realCast(diff.load(i)); } __generic T loadOnce_forward(vector i) { return __realCast(diff.load(i)); } __generic void loadOnce_backward(uint i, T dOut) { diff.store(i, __realCast(dOut)); } __generic void loadOnce_backward(vector i, T dOut) { diff.store(i, __realCast(dOut)); } __generic void storeOnce_forward(uint i, T dx) { diff.store(i, __realCast(dx)); } __generic void storeOnce_forward(vector i, T dx) { diff.store(i, __realCast(dx)); } __generic T storeOnce_backward(uint i) { return __realCast(diff.load(i)); } __generic T storeOnce_backward(vector i) { return __realCast(diff.load(i)); } }; __generic struct DiffTensorView { TensorView primal; A diff; uint size(uint i) { return primal.size(i); } uint dims() { return primal.dims(); } uint stride(uint i) { return primal.stride(i); } // Constructors __init(TensorView primal, A diff) { this.primal = primal; this.diff = diff; } __init(TensorView primal) { this.primal = primal; } // Universal load/store operations. [BackwardDerivative(__load_backward)] [ForwardDerivative(__load_forward)] T load(uint i) { return primal.load(i); } [BackwardDerivative(__load_backward)] [ForwardDerivative(__load_forward)] __generic T load(vector i) { return primal.load(i); } DifferentialPair __load_forward(uint x) { return diffPair(primal.load(x), reinterpret(diff.load_forward(x))); } __generic DifferentialPair __load_forward(vector x) { return diffPair(primal.load(x), reinterpret(diff.load_forward(x))); } void __load_backward(uint x, T.Differential dOut) { diff.load_backward(x, reinterpret(dOut)); } __generic void __load_backward(vector x, T.Differential dOut) { diff.load_backward(x, reinterpret(dOut)); } [BackwardDerivative(__store_backward)] [ForwardDerivative(__store_forward)] void store(uint x, T val) { primal.store(x, val); } [BackwardDerivative(__store_backward)] [ForwardDerivative(__store_forward)] __generic void store(vector x, T val) { primal.store(x, val); } void __store_forward(uint x, DifferentialPair dpval) { primal.store(x, dpval.p); diff.store_forward(x, reinterpret(dpval.d)); } __generic void __store_forward(vector x, DifferentialPair dpval) { primal.store(x, dpval.p); diff.store_forward(x, reinterpret(dpval.d)); } void __store_backward(uint x, inout DifferentialPair dpval) { dpval = diffPair(dpval.p, reinterpret(diff.store_backward(x))); } __generic void __store_backward(vector x, inout DifferentialPair dpval) { dpval = diffPair(dpval.p, reinterpret(diff.store_backward(x))); } __subscript(uint index)->T { [__unsafeForceInlineEarly] [Differentiable] [__NoSideEffect] get { return load(index); } [__unsafeForceInlineEarly] [Differentiable] set { store(index, newValue); } [__NoSideEffect] ref; } __subscript(uint2 index)->T { [__unsafeForceInlineEarly] [Differentiable] [__NoSideEffect] get { return load(index); } [__unsafeForceInlineEarly] [Differentiable] set { store(index, newValue); } [__NoSideEffect] ref; } __subscript(uint x, uint y)->T { [__unsafeForceInlineEarly] [Differentiable] [__NoSideEffect] get { return load(uint2(x, y)); } [__unsafeForceInlineEarly] [Differentiable] set { store(uint2(x, y), newValue); } [__NoSideEffect] ref; } __subscript(uint3 index)->T { [__unsafeForceInlineEarly] [Differentiable] [__NoSideEffect] get { return load(index); } [__unsafeForceInlineEarly] [Differentiable] set { store(index, newValue); } [__NoSideEffect] ref; } __subscript(uint x, uint y, uint z)->T { [__unsafeForceInlineEarly] [Differentiable] [__NoSideEffect] get { return load(uint3(x, y, z)); } [__unsafeForceInlineEarly] [Differentiable] set { store(uint3(x, y, z), newValue); } [__NoSideEffect] ref; } __subscript(uint4 index)->T { [__unsafeForceInlineEarly] [Differentiable] [__NoSideEffect] get { return load(index); } [__unsafeForceInlineEarly] [Differentiable] set { store(index, newValue); } [__NoSideEffect] ref; } __subscript(uint x, uint y, uint z, uint w)->T { [__unsafeForceInlineEarly] [Differentiable] [__NoSideEffect] get { return load(uint4(x, y, z, w)); } [__unsafeForceInlineEarly] [Differentiable] set { store(uint4(x, y, z, w), newValue); } [__NoSideEffect] ref; } // loadOnce/storeOnce operations. These operations are designed to only run once per-address and // don't need atomic gradient handling. // [BackwardDerivative(__loadOnce_backward)] [ForwardDerivative(__loadOnce_forward)] T loadOnce(uint i) { return primal.load(i); } [BackwardDerivative(__loadOnce_backward)] [ForwardDerivative(__loadOnce_forward)] __generic T loadOnce(vector i) { return primal.load(i); } DifferentialPair __loadOnce_forward(uint x) { return diffPair(primal.load(x), reinterpret(diff.loadOnce_forward(x))); } __generic DifferentialPair __loadOnce_forward(vector x) { return diffPair(primal.load(x), reinterpret(diff.loadOnce_forward(x))); } void __loadOnce_backward(uint x, T.Differential dOut) { diff.loadOnce_backward(x, reinterpret(dOut)); } __generic void __loadOnce_backward(vector x, T.Differential dOut) { diff.loadOnce_backward(x, reinterpret(dOut)); } [BackwardDerivative(__storeOnce_backward)] [ForwardDerivative(__storeOnce_forward)] void storeOnce(uint x, T val) { primal.store(x, val); } [BackwardDerivative(__storeOnce_backward)] [ForwardDerivative(__storeOnce_forward)] __generic void storeOnce(vector x, T val) { primal.store(x, val); } void __storeOnce_forward(uint x, DifferentialPair dpval) { primal.store(x, dpval.p); diff.storeOnce_forward(x, reinterpret(dpval.d)); } __generic void __storeOnce_forward(vector x, DifferentialPair dpval) { primal.store(x, dpval.p); diff.storeOnce_forward(x, reinterpret(dpval.d)); } void __storeOnce_backward(uint x, inout DifferentialPair dpval) { dpval = diffPair(dpval.p, reinterpret(diff.storeOnce_backward(x))); } __generic void __storeOnce_backward(vector x, inout DifferentialPair dpval) { dpval = diffPair(dpval.p, reinterpret(diff.storeOnce_backward(x))); } }; /// Represents the handle of a Torch tensor object. __generic __intrinsic_type($(kIROp_TorchTensorType)) struct TorchTensor { __intrinsic_op($(kIROp_TorchTensorGetView)) [CudaHost] TensorView getView(); __target_intrinsic(cuda, "$0.dims()") __target_intrinsic(cpp, "$0.dims()") [__readNone] [CudaHost] uint dims(); __target_intrinsic(cuda, "$0.size($1)") __target_intrinsic(cpp, "$0.size($1)") [__readNone] [CudaHost] uint size(uint i); __target_intrinsic(cuda, "$0.stride($1)") __target_intrinsic(cpp, "$0.stride($1)") [__readNone] [CudaHost] uint stride(uint i); __target_intrinsic(cuda, "$0.data_ptr<$G0>()") __target_intrinsic(cpp, "$0.data_ptr<$G0>()") [__readNone] [CudaHost] Ptr data_ptr(); __intrinsic_op($(kIROp_AllocateTorchTensor)) [CudaHost] static TorchTensor alloc(uint x); __intrinsic_op($(kIROp_AllocateTorchTensor)) [CudaHost] static TorchTensor alloc(uint x, uint y); __intrinsic_op($(kIROp_AllocateTorchTensor)) [CudaHost] static TorchTensor alloc(uint x, uint y, uint z); __intrinsic_op($(kIROp_AllocateTorchTensor)) [CudaHost] static TorchTensor alloc(uint x, uint y, uint z, uint w); __intrinsic_op($(kIROp_AllocateTorchTensor)) [CudaHost] static TorchTensor alloc(uint i0, uint i1, uint i2, uint i3, uint i4); __intrinsic_op($(kIROp_AllocateTorchTensor)) [CudaHost] static TorchTensor emptyLike(TorchTensor other); __target_intrinsic(cpp, "$0.zero_()") [CudaHost] void fillZero(); __target_intrinsic(cpp, "$0.fill_($1)") [CudaHost] void fillValue(T val); [CudaHost] static TorchTensor zerosLike(TorchTensor other) { var result = emptyLike(other); result.fillZero(); return result; } } __target_intrinsic(cpp, "AT_CUDA_CHECK(cudaStreamSynchronize(at::cuda::getCurrentCUDAStream()))") void syncTorchCudaStream(); /// Constructs a `DifferentialPair` value from a primal value and a differential value. __generic __intrinsic_op($(kIROp_MakeDifferentialPairUserCode)) DifferentialPair diffPair(T primal, T.Differential diff); /// Constructs a `DifferentialPair` value from a primal value and a zero differential value. __generic [__unsafeForceInlineEarly] DifferentialPair diffPair(T primal) { return diffPair(primal, T.dzero()); } [__unsafeForceInlineEarly] void updatePrimal(inout DifferentialPair p, T newPrimal) { p = DifferentialPair(newPrimal, p.d); } [__unsafeForceInlineEarly] void updateDiff(inout DifferentialPair p, T.Differential newDiff) { p = DifferentialPair(p.p, newDiff); } [__unsafeForceInlineEarly] void updatePair(inout DifferentialPair p, T newPrimal, T.Differential newDiff) { p = DifferentialPair(newPrimal, newDiff); } __generic __intrinsic_op($(kIROp_MakeArrayFromElement)) Array makeArrayFromElement(T element); __generic extension Array : IDifferentiable { typedef Array Differential; [__unsafeForceInlineEarly] static Differential dzero() { return makeArrayFromElement(T.dzero()); } [__unsafeForceInlineEarly] static Differential dadd(Differential a, Differential b) { Array result; for (int i = 0; i < N; i++) result[i] = T.dadd(a[i], b[i]); return result; } __generic [__unsafeForceInlineEarly] static Differential dmul(U a, Differential b) { Array result; for (int i = 0; i < N; i++) result[i] = T.dmul(a, b[i]); return result; } } // Matrix transpose __generic [ForceInline] [ForwardDerivativeOf(transpose)] [PreferRecompute] [BackwardDifferentiable] DifferentialPair> __d_transpose(DifferentialPair> m) { return DifferentialPair>(transpose(m.p), transpose(m.d)); } __generic [ForceInline] [BackwardDerivativeOf(transpose)] [PreferRecompute] [BackwardDifferentiable] void __d_transpose(inout DifferentialPair> m, matrix.Differential dOut) { m = diffPair(m.p, transpose(dOut)); } // vector-matrix __generic [ForceInline] [ForwardDerivativeOf(mul)] [PreferRecompute] [BackwardDifferentiable] DifferentialPair> mul(DifferentialPair> left, DifferentialPair> right) { let primal = mul(left.p, right.p); let diff = mul(left.d, right.p) + mul(left.p, right.d); return DifferentialPair>(primal, diff); } __generic [BackwardDerivativeOf(mul)] [PreferRecompute] [BackwardDifferentiable] void __d_mul(inout DifferentialPair> left, inout DifferentialPair> right, vector.Differential dOut) { vector.Differential left_d_result; matrix.Differential right_d_result; [ForceUnroll] for (int i = 0; i < N; ++i) { T sum = T(0); [ForceUnroll] for (int j = 0; j < M; ++j) { sum += right.p[i][j] * dOut[j]; right_d_result[i][j] = left.p[i] * dOut[j]; } left_d_result[i] = sum; } left = diffPair(left.p, left_d_result); right = diffPair(right.p, right_d_result); } // matrix-vector __generic [ForceInline] [ForwardDerivativeOf(mul)] [PreferRecompute] [BackwardDifferentiable] DifferentialPair> mul(DifferentialPair> left, DifferentialPair> right) { let primal = mul(left.p, right.p); let diff = mul(left.d, right.p) + mul(left.p, right.d); return DifferentialPair>(primal, diff); } __generic [BackwardDerivativeOf(mul)] [PreferRecompute] [BackwardDifferentiable] void __d_mul(inout DifferentialPair> left, inout DifferentialPair> right, vector.Differential dOut) { matrix.Differential left_d_result; vector.Differential right_d_result; [ForceUnroll] for (int j = 0; j < M; ++j) { T sum = T(0); [ForceUnroll] for (int i = 0; i < N; ++i) { sum += left.p[i][j] * dOut[i]; left_d_result[i][j] = right.p[j] * dOut[i]; } right_d_result[j] = sum; } left = diffPair(left.p, left_d_result); right = diffPair(right.p, right_d_result); } // matrix-matrix __generic [ForceInline] [ForwardDerivativeOf(mul)] [PreferRecompute] [BackwardDifferentiable] DifferentialPair> mul(DifferentialPair> left, DifferentialPair> right) { let primal = mul(left.p, right.p); let diff = mul(left.d, right.p) + mul(left.p, right.d); return DifferentialPair>(primal, diff); } __generic [BackwardDerivativeOf(mul)] [PreferRecompute] [BackwardDifferentiable] void mul(inout DifferentialPair> left, inout DifferentialPair> right, matrix.Differential dOut) { matrix.Differential left_d_result; [ForceUnroll] for (int r = 0; r < R; ++r) [ForceUnroll] for (int n = 0; n < N; ++n) left_d_result[r][n] = T(0.0); matrix.Differential right_d_result; [ForceUnroll] for (int n = 0; n < N; ++n) [ForceUnroll] for (int c = 0; c < C; ++c) right_d_result[n][c] = T(0.0); [ForceUnroll] for (int r = 0; r < R; ++r) { [ForceUnroll] for (int c = 0; c < C; ++c) { [ForceUnroll] for (int n = 0; n < N; ++n) { left_d_result[r][n] += right.p[n][c] * dOut[r][c]; right_d_result[n][c] += left.p[r][n] * dOut[r][c]; } } } left = diffPair(left.p, left_d_result); right = diffPair(right.p, right_d_result); } // Vector dot product __generic [ForwardDerivativeOf(dot)] [PreferRecompute] [BackwardDifferentiable] DifferentialPair __d_dot(DifferentialPair> dpx, DifferentialPair> dpy) { T result = T(0); T.Differential d_result = T.dzero(); [ForceUnroll] for (int i = 0; i < N; ++i) { result = result + dpx.p[i] * dpy.p[i]; d_result = T.dadd(d_result, __slang_noop_cast(dpx.p[i] * dpy.d[i])); d_result = T.dadd(d_result, __slang_noop_cast(dpy.p[i] * dpx.d[i])); } return DifferentialPair(result, d_result); } __generic [BackwardDerivativeOf(dot)] [PreferRecompute] [BackwardDifferentiable] void __d_dot(inout DifferentialPair> dpx, inout DifferentialPair> dpy, T.Differential dOut) { vector.Differential x_d_result, y_d_result; [ForceUnroll] for (int i = 0; i < N; ++i) { x_d_result[i] = dpy.p[i] * __slang_noop_cast(dOut); y_d_result[i] = dpx.p[i] * __slang_noop_cast(dOut); } dpx = diffPair(dpx.p, x_d_result); dpy = diffPair(dpy.p, y_d_result); } // Cross product __generic [ForwardDerivativeOf(cross)] [PreferRecompute] [BackwardDifferentiable] DifferentialPair> __d_cross(DifferentialPair> a, DifferentialPair> b) { /* cx = ay * bz − az * by cy = az * bx − ax * bz cz = ax * by − ay * bx */ T aybz = a.p.y * b.p.z; T azby = a.p.z * b.p.y; T px = aybz - azby; T dx = (b.p.z - azby) * a.d.y + (a.p.y - azby) * b.d.z + (aybz - b.p.y) * a.d.z + (aybz - a.p.z) * b.d.y; T azbx = a.p.z * b.p.x; T axbz = a.p.x * b.p.z; T py = azbx - axbz; T dy = (b.p.x - axbz) * a.d.z + (a.p.z - axbz) * b.d.x + (azbx - b.p.z) * a.d.x + (azbx - a.p.x) * b.d.z; T axby = a.p.x * b.p.y; T aybx = a.p.y * b.p.x; T pz = axby - aybx; T dz = (b.p.y - aybx) * a.d.x + (a.p.x - aybx) * b.d.y + (axby - b.p.x) * a.d.y + (axby - a.p.y) * b.d.x; return DifferentialPair>(vector(px, py, pz), vector.Differential(dx, dy, dz)); } __generic [BackwardDerivativeOf(cross)] [PreferRecompute] [BackwardDifferentiable] void __d_cross(inout DifferentialPair> a, inout DifferentialPair> b, vector.Differential dOut) { /* cx = ay * bz − az * by cy = az * bx − ax * bz cz = ax * by − ay * bx */ T dax = (-b.p.z * dOut.y) + (b.p.y * dOut.z); T day = (b.p.z * dOut.x) + (-b.p.x * dOut.z); T daz = (-b.p.y * dOut.x) + (b.p.x * dOut.y); T dbx = (a.p.z * dOut.y) + (-a.p.y * dOut.z); T dby = (-a.p.z * dOut.x) + (a.p.x * dOut.z); T dbz = (a.p.y * dOut.x) + (-a.p.x * dOut.y); a = diffPair(a.p, vector.Differential(dax, day, daz)); b = diffPair(b.p, vector.Differential(dbx, dby, dbz)); } #define VECTOR_MATRIX_BINARY_DIFF_IMPL(NAME) \ __generic \ [BackwardDifferentiable][PreferRecompute] \ [ForwardDerivativeOf(NAME)] \ DifferentialPair> __d_##NAME##_vector( \ DifferentialPair> dpx, DifferentialPair> dpy) \ { \ vector result; \ vector.Differential d_result; \ [ForceUnroll] for (int i = 0; i < N; ++i) \ { \ DifferentialPair dp_elem = __d_##NAME( \ DifferentialPair(dpx.p[i], __slang_noop_cast(dpx.d[i])), \ DifferentialPair(dpy.p[i], __slang_noop_cast(dpy.d[i]))); \ result[i] = dp_elem.p; \ d_result[i] = __slang_noop_cast(dp_elem.d); \ } \ return DifferentialPair>(result, d_result); \ } \ __generic \ [BackwardDifferentiable][PreferRecompute] \ [ForwardDerivativeOf(NAME)] \ DifferentialPair> __d_##NAME##_matrix( \ DifferentialPair> dpx, DifferentialPair> dpy) \ { \ matrix result; \ matrix.Differential d_result; \ [ForceUnroll] for (int i = 0; i < M; ++i) \ [ForceUnroll] for (int j = 0; j < N; ++j) \ { \ DifferentialPair dp_elem = __d_##NAME( \ DifferentialPair(dpx.p[i][j], __slang_noop_cast(dpx.d[i][j])), \ DifferentialPair(dpy.p[i][j], __slang_noop_cast(dpy.d[i][j]))); \ result[i][j] = dp_elem.p; \ d_result[i][j] = __slang_noop_cast(dp_elem.d); \ } \ return DifferentialPair>(result, d_result); \ } \ __generic \ [BackwardDifferentiable][PreferRecompute] \ [BackwardDerivativeOf(NAME)] \ void __d_##NAME##_vector( \ inout DifferentialPair> dpx, \ inout DifferentialPair> dpy, \ vector.Differential dOut) \ { \ vector.Differential left_d_result, right_d_result; \ [ForceUnroll] for (int i = 0; i < N; ++i) \ { \ DifferentialPair left_dp = diffPair(dpx.p[i], T.dzero()); \ DifferentialPair right_dp = diffPair(dpy.p[i], T.dzero()); \ __d_##NAME(left_dp, right_dp, __slang_noop_cast(dOut[i])); \ left_d_result[i] = __slang_noop_cast(left_dp.d); \ right_d_result[i] = __slang_noop_cast(right_dp.d); \ } \ dpx = diffPair(dpx.p, left_d_result); \ dpy = diffPair(dpy.p, right_d_result); \ } \ __generic \ [BackwardDifferentiable][PreferRecompute] \ [BackwardDerivativeOf(NAME)] \ void __d_##NAME##_matrix( \ inout DifferentialPair> dpx, \ inout DifferentialPair> dpy, \ matrix.Differential dOut) \ { \ matrix.Differential left_d_result, right_d_result; \ [ForceUnroll] for (int i = 0; i < M; ++i) \ [ForceUnroll] for (int j = 0; j < N; ++j) \ { \ DifferentialPair left_dp = diffPair(dpx.p[i][j], T.dzero()); \ DifferentialPair right_dp = diffPair(dpy.p[i][j], T.dzero()); \ __d_##NAME(left_dp, right_dp, __slang_noop_cast(dOut[i][j])); \ left_d_result[i][j] = __slang_noop_cast(left_dp.d); \ right_d_result[i][j] = __slang_noop_cast(right_dp.d); \ } \ dpx = diffPair(dpx.p, left_d_result); \ dpy = diffPair(dpy.p, right_d_result); \ } #define VECTOR_MATRIX_TERNARY_DIFF_IMPL(NAME) \ __generic \ [BackwardDifferentiable][PreferRecompute] \ [ForwardDerivativeOf(NAME)] \ DifferentialPair> __d_##NAME##_vector( \ DifferentialPair> dpx, \ DifferentialPair> dpy, \ DifferentialPair> dpz) \ { \ vector result; \ vector.Differential d_result; \ [ForceUnroll] for (int i = 0; i < N; ++i) \ { \ DifferentialPair dp_elem = __d_##NAME( \ DifferentialPair(dpx.p[i], __slang_noop_cast(dpx.d[i])), \ DifferentialPair(dpy.p[i], __slang_noop_cast(dpy.d[i])), \ DifferentialPair(dpz.p[i], __slang_noop_cast(dpz.d[i]))); \ result[i] = dp_elem.p; \ d_result[i] = __slang_noop_cast(dp_elem.d); \ } \ return DifferentialPair>(result, d_result); \ } \ __generic \ [BackwardDifferentiable][PreferRecompute] \ [ForwardDerivativeOf(NAME)] \ DifferentialPair> __d_##NAME##_matrix( \ DifferentialPair> dpx, \ DifferentialPair> dpy, \ DifferentialPair> dpz) \ { \ matrix result; \ matrix.Differential d_result; \ [ForceUnroll] for (int i = 0; i < M; ++i) \ [ForceUnroll] for (int j = 0; j < N; ++j) \ { \ DifferentialPair dp_elem = __d_##NAME( \ DifferentialPair(dpx.p[i][j], __slang_noop_cast(dpx.d[i][j])), \ DifferentialPair(dpy.p[i][j], __slang_noop_cast(dpy.d[i][j])), \ DifferentialPair(dpz.p[i][j], __slang_noop_cast(dpz.d[i][j]))); \ result[i][j] = dp_elem.p; \ d_result[i][j] = __slang_noop_cast(dp_elem.d); \ } \ return DifferentialPair>(result, d_result); \ } \ __generic \ [BackwardDifferentiable][PreferRecompute] \ [BackwardDerivativeOf(NAME)] \ void __d_##NAME##_vector( \ inout DifferentialPair> dpx, \ inout DifferentialPair> dpy, \ inout DifferentialPair> dpz, \ vector.Differential dOut) \ { \ vector.Differential left_d_result, middle_d_result, right_d_result; \ [ForceUnroll] for (int i = 0; i < N; ++i) \ { \ DifferentialPair left_dp = diffPair(dpx.p[i], T.dzero()); \ DifferentialPair middle_dp = diffPair(dpy.p[i], T.dzero()); \ DifferentialPair right_dp = diffPair(dpz.p[i], T.dzero()); \ __d_##NAME(left_dp, middle_dp, right_dp, \ __slang_noop_cast(dOut[i])); \ left_d_result[i] = __slang_noop_cast(left_dp.d); \ middle_d_result[i] = __slang_noop_cast(middle_dp.d); \ right_d_result[i] = __slang_noop_cast(right_dp.d); \ } \ dpx = diffPair(dpx.p, left_d_result); \ dpy = diffPair(dpy.p, middle_d_result); \ dpz = diffPair(dpz.p, right_d_result); \ } \ __generic \ [BackwardDifferentiable][PreferRecompute] \ [BackwardDerivativeOf(NAME)] \ void __d_##NAME##_matrix( \ inout DifferentialPair> dpx, \ inout DifferentialPair> dpy, \ inout DifferentialPair> dpz, \ matrix.Differential dOut) \ { \ matrix.Differential left_d_result, middle_d_result, right_d_result; \ [ForceUnroll] for (int i = 0; i < M; ++i) \ [ForceUnroll] for (int j = 0; j < N; ++j) \ { \ DifferentialPair left_dp = diffPair(dpx.p[i][j], T.dzero()); \ DifferentialPair middle_dp = diffPair(dpy.p[i][j], T.dzero()); \ DifferentialPair right_dp = diffPair(dpz.p[i][j], T.dzero()); \ __d_##NAME(left_dp, middle_dp, right_dp, \ __slang_noop_cast(dOut[i][j])); \ left_d_result[i][j] = __slang_noop_cast(left_dp.d); \ middle_d_result[i][j] = __slang_noop_cast(middle_dp.d); \ right_d_result[i][j] = __slang_noop_cast(right_dp.d); \ } \ dpx = diffPair(dpx.p, left_d_result); \ dpy = diffPair(dpy.p, middle_d_result); \ dpz = diffPair(dpz.p, right_d_result); \ } #define UNARY_DERIVATIVE_IMPL(NAME, FWD_DIFF_FUNC, BWD_DIFF_FUNC) \ __generic \ [BackwardDifferentiable] [PreferRecompute] \ [ForwardDerivativeOf(NAME)] \ DifferentialPair __d_##NAME(DifferentialPair dpx) \ { \ typealias ReturnType = T; \ return DifferentialPair(NAME(dpx.p), FWD_DIFF_FUNC); \ } \ __generic \ [BackwardDifferentiable] [PreferRecompute] \ [ForwardDerivativeOf(NAME)] \ DifferentialPair> __d_##NAME##_vector(DifferentialPair> dpx) \ { \ typealias ReturnType = vector; \ return DifferentialPair(NAME(dpx.p), FWD_DIFF_FUNC); \ } \ __generic \ [BackwardDifferentiable] [PreferRecompute] \ [ForwardDerivativeOf(NAME)] \ DifferentialPair> __d_##NAME##_m(DifferentialPair> dpm) \ { \ typealias ReturnType = vector; \ matrix