Add updater tests/validation (#319)

Signed-off-by: Alex Black <blacka101@gmail.com>
2020-03-16 18:35:15 +11:00 · 2020-03-16 18:35:15 +11:00 · 2cd4522f94
commit 2cd4522f94
parent 4cf2afad2b
2 changed files with 494 additions and 0 deletions
--- a/nd4j/nd4j-backends/nd4j-tests/src/test/java/org/nd4j/linalg/learning/UpdaterJavaCode.java
+++ b/nd4j/nd4j-backends/nd4j-tests/src/test/java/org/nd4j/linalg/learning/UpdaterJavaCode.java
@ -0,0 +1,167 @@
 /* ******************************************************************************
 * Copyright (c) 2020 Konduit K.K.
 *
 * This program and the accompanying materials are made available under the
 * terms of the Apache License, Version 2.0 which is available at
 * https://www.apache.org/licenses/LICENSE-2.0.
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
 * WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
 * License for the specific language governing permissions and limitations
 * under the License.
 *
 * SPDX-License-Identifier: Apache-2.0
 ******************************************************************************/
 package org.nd4j.linalg.learning;
 import org.apache.commons.math3.util.FastMath;
 import org.nd4j.linalg.api.ndarray.INDArray;
 import org.nd4j.linalg.api.ops.impl.transforms.custom.Max;
 import org.nd4j.linalg.api.ops.impl.transforms.floating.Sqrt;
 import org.nd4j.linalg.api.ops.impl.transforms.pairwise.arithmetic.AddOp;
 import org.nd4j.linalg.factory.Nd4j;
 import org.nd4j.linalg.ops.transforms.Transforms;
 import java.util.Map;
 public class UpdaterJavaCode {
    private UpdaterJavaCode(){ }
    public static void applyAdaDeltaUpdater(INDArray gradient, INDArray msg, INDArray msdx, double rho, double epsilon){
        //Line 4 of Algorithm 1: https://arxiv.org/pdf/1212.5701v1.pdf
        //E[g^2]_t = rho * E[g^2]_{t-1} + (1-rho)*g^2_t
        msg.muli(rho).addi(gradient.mul(gradient).muli(1 - rho));
        //Calculate update:
        //dX = - g * RMS[delta x]_{t-1} / RMS[g]_t
        //Note: negative is applied in the DL4J step function: params -= update rather than params += update
        INDArray rmsdx_t1 = Transforms.sqrt(msdx.add(epsilon), false);
        INDArray rmsg_t = Transforms.sqrt(msg.add(epsilon), false);
        INDArray update = gradient.muli(rmsdx_t1.divi(rmsg_t));
        //Accumulate gradients: E[delta x^2]_t = rho * E[delta x^2]_{t-1} + (1-rho)* (delta x_t)^2
        msdx.muli(rho).addi(update.mul(update).muli(1 - rho));
    }
    public static void applyAdamUpdater(INDArray gradient, INDArray m, INDArray v, double learningRate, double beta1, double beta2,
                                                         double epsilon, int iteration){
        INDArray oneMinusBeta1Grad = gradient.mul(1.0 - beta1);
        m.muli(beta1).addi(oneMinusBeta1Grad);
        INDArray oneMinusBeta2GradSquared = gradient.mul(gradient).muli(1 - beta2);
        v.muli(beta2).addi(oneMinusBeta2GradSquared);
        double beta1t = FastMath.pow(beta1, iteration + 1);
        double beta2t = FastMath.pow(beta2, iteration + 1);
        double alphat = learningRate * FastMath.sqrt(1 - beta2t) / (1 - beta1t);
        if (Double.isNaN(alphat) || alphat == 0.0)
            alphat = epsilon;
        INDArray sqrtV = Transforms.sqrt(v.dup('c'), false).addi(epsilon);
        gradient.assign(m).muli(alphat).divi(sqrtV);
    }
    public static void applyAdaMaxUpdater(INDArray gradient, INDArray m, INDArray v, double learningRate, double beta1, double beta2,
                                        double epsilon, int iteration){
        //m = B_1 * m + (1-B_1)*grad
        m.muli(beta1).addi(gradient.mul(1 - beta1));
        //u = max(B_2 * u, |grad|)
        v.muli(beta2);
        Transforms.abs(gradient, false); //In-place should be OK here, original gradient values aren't used again later
        Nd4j.getExecutioner().exec(new Max(v, gradient, v));
        double beta1t = FastMath.pow(beta1, iteration + 1);
        double alphat = learningRate / (1.0 - beta1t);
        if (Double.isNaN(alphat) || Double.isInfinite(alphat) || alphat == 0.0) {
            alphat = epsilon;
        }
        v.addi(1e-32); // prevent NaNs in params
        gradient.assign(m).muli(alphat).divi(v);
    }
    public static void applyAmsGradUpdater(INDArray gradient, INDArray m, INDArray v, INDArray vHat, double learningRate, double beta1, double beta2,
                                           double epsilon, int iteration){
        //m_t = b_1 * m_{t-1} + (1-b_1) * g_t       eq 1 pg 3
        INDArray oneMinusBeta1Grad = gradient.mul(1.0 - beta1);
        m.muli(beta1).addi(oneMinusBeta1Grad);
        //v_t = b_2 * v_{t-1} + (1-b_2) * (g_t)^2   eq 1 pg 3
        INDArray oneMinusBeta2GradSquared = gradient.mul(gradient).muli(1 - beta2);
        v.muli(beta2).addi(oneMinusBeta2GradSquared);
        double beta1t = FastMath.pow(beta1, iteration + 1);
        double beta2t = FastMath.pow(beta2, iteration + 1);
        //vHat_t = max(vHat_{t-1}, v_t)
        Transforms.max(vHat, v, false);
        double alphat = learningRate * FastMath.sqrt(1 - beta2t) / (1 - beta1t);
        if (Double.isNaN(alphat) || alphat == 0.0)
            alphat = epsilon;
        //gradient array contains: sqrt(vHat) + eps
        Nd4j.getExecutioner().exec(new Sqrt(vHat, gradient)).addi(epsilon);
        //gradient = alphat * m_t / (sqrt(vHat) + eps)
        gradient.rdivi(m).muli(alphat);
    }
    public static void applyNadamUpdater(INDArray gradient, INDArray m, INDArray v, double learningRate, double beta1, double beta2,
                                        double epsilon, int iteration){
        INDArray oneMinusBeta1Grad = gradient.mul(1.0 - beta1);
        m.muli(beta1).addi(oneMinusBeta1Grad);
        INDArray oneMinusBeta2GradSquared = gradient.mul(gradient).muli(1.0 - beta2);
        v.muli(beta2).addi(oneMinusBeta2GradSquared);
        double beta1t = FastMath.pow(beta1, iteration + 1);
        INDArray biasCorrectedEstimateOfMomentum = m.mul(beta1).divi(1.0 - beta1t);
        INDArray secondTerm = oneMinusBeta1Grad.divi(1 - beta1t);
        INDArray alphat = biasCorrectedEstimateOfMomentum.add(secondTerm).muli(learningRate);
        INDArray sqrtV = Transforms.sqrt(v.dup('c'), false).addi(epsilon);
        gradient.assign(alphat).divi(sqrtV);
    }
    public static void applyNesterovsUpdater(INDArray gradient, INDArray v, double lr, double momentum){
        //reference https://cs231n.github.io/neural-networks-3/#sgd 2nd equation
        //DL4J default is negative step function thus we flipped the signs:
        // x += mu * v_prev + (-1 - mu) * v
        //i.e., we do params -= updatedGradient, not params += updatedGradient
        //v = mu * v - lr * gradient
        INDArray vPrev = v.dup('c');
        v.muli(momentum).subi(gradient.dup('c').muli(lr)); //Modify state array in-place
        /*
        Next line is equivalent to:
        INDArray ret = vPrev.muli(momentum).addi(v.mul(-momentum - 1));
        gradient.assign(ret);
        */
        Nd4j.getExecutioner().exec(new AddOp(vPrev.muli(momentum), v.mul(-momentum - 1), gradient));
    }
    public static void applyRmsProp(INDArray gradient, INDArray lastGradient, double learningRate, double rmsDecay, double epsilon){
        lastGradient.muli(rmsDecay).addi(gradient.mul(gradient).muli(1 - rmsDecay));
        // lr * gradient / (sqrt(cache) + 1e-8)
        gradient.muli(learningRate).divi(Transforms.sqrt(lastGradient.dup('c'), false).addi(epsilon));
    }
    public static void applySgd(INDArray gradient, double lr){
        gradient.muli(lr);
    }
 }
--- a/nd4j/nd4j-backends/nd4j-tests/src/test/java/org/nd4j/linalg/learning/UpdaterValidation.java
+++ b/nd4j/nd4j-backends/nd4j-tests/src/test/java/org/nd4j/linalg/learning/UpdaterValidation.java
@ -0,0 +1,327 @@
 /* ******************************************************************************
 * Copyright (c) 2020 Konduit K.K.
 *
 * This program and the accompanying materials are made available under the
 * terms of the Apache License, Version 2.0 which is available at
 * https://www.apache.org/licenses/LICENSE-2.0.
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
 * WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
 * License for the specific language governing permissions and limitations
 * under the License.
 *
 * SPDX-License-Identifier: Apache-2.0
 ******************************************************************************/
 package org.nd4j.linalg.learning;
 import org.junit.Test;
 import org.nd4j.linalg.BaseNd4jTest;
 import org.nd4j.linalg.api.buffer.DataType;
 import org.nd4j.linalg.api.ndarray.INDArray;
 import org.nd4j.linalg.factory.Nd4j;
 import org.nd4j.linalg.factory.Nd4jBackend;
 import org.nd4j.linalg.learning.config.*;
 import java.util.HashMap;
 import java.util.Map;
 import static org.junit.Assert.assertEquals;
 public class UpdaterValidation extends BaseNd4jTest {
    public UpdaterValidation(Nd4jBackend backend) {
        super(backend);
    }
    @Override
    public char ordering() {
        return 'c';
    }
    @Test
    public void testAdaDeltaUpdater(){
        double rho = 0.95;
        double epsilon = 1e-6;
        INDArray msg = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        INDArray msdx = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        Map<String,INDArray> state = new HashMap<>();
        state.put("msg", msg.dup());
        state.put("msdx", msdx.dup());
        AdaDeltaUpdater u = (AdaDeltaUpdater) new AdaDelta(rho,epsilon).instantiate(state, true);
        assertEquals(msg, state.get("msg"));
        assertEquals(msdx, state.get("msdx"));
        for( int i=0; i<3; i++ ) {
            INDArray g1 = Nd4j.linspace(DataType.DOUBLE, 1, 5, 1).reshape(1,5);
            INDArray g2 = g1.dup();
            UpdaterJavaCode.applyAdaDeltaUpdater(g1, msg, msdx, rho, epsilon);
            u.applyUpdater(g2, i, 0);
            assertEquals(msg, state.get("msg"));
            assertEquals(msdx, state.get("msdx"));
            assertEquals(g1, g2);
        }
    }
    @Test
    public void testAdamUpdater(){
        double lr = 1e-3;
        double beta1 = 0.9;
        double beta2 = 0.999;
        double eps = 1e-8;
        INDArray m = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        INDArray v = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        Map<String,INDArray> state = new HashMap<>();
        state.put("M", m.dup());
        state.put("V", v.dup());
        AdamUpdater u = (AdamUpdater) new Adam(lr, beta1, beta2, eps).instantiate(state, true);
        assertEquals(m, state.get("M"));
        assertEquals(v, state.get("V"));
        for( int i=0; i<3; i++ ) {
            INDArray g1 = Nd4j.linspace(DataType.DOUBLE, 1, 5, 1).reshape(1,5);
            INDArray g2 = g1.dup();
            UpdaterJavaCode.applyAdamUpdater(g1, m, v, lr, beta1, beta2, eps, i);
            u.applyUpdater(g2, i, 0);
            assertEquals(m, state.get("M"));
            assertEquals(v, state.get("V"));
            assertEquals(g1, g2);
        }
    }
    @Test
    public void testAdaMaxUpdater(){
        double lr = 1e-3;
        double beta1 = 0.9;
        double beta2 = 0.999;
        double eps = 1e-8;
        INDArray m = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        INDArray v = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        Map<String,INDArray> state = new HashMap<>();
        state.put("M", m.dup());
        state.put("V", v.dup());
        AdaMaxUpdater u = (AdaMaxUpdater) new AdaMax(lr, beta1, beta2, eps).instantiate(state, true);
        assertEquals(m, state.get("M"));
        assertEquals(v, state.get("V"));
        for( int i=0; i<3; i++ ) {
            INDArray g1 = Nd4j.linspace(DataType.DOUBLE, 1, 5, 1).reshape(1,5);
            INDArray g2 = g1.dup();
            UpdaterJavaCode.applyAdaMaxUpdater(g1, m, v, lr, beta1, beta2, eps, i);
            u.applyUpdater(g2, i, 0);
            assertEquals(m, state.get("M"));
            assertEquals(v, state.get("V"));
            assertEquals(g1, g2);
        }
    }
    @Test
    public void testAmsGradUpdater(){
        double lr = 1e-3;
        double beta1 = 0.9;
        double beta2 = 0.999;
        double eps = 1e-8;
        INDArray m = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        INDArray v = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        INDArray vH = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        Map<String,INDArray> state = new HashMap<>();
        state.put("M", m.dup());
        state.put("V", v.dup());
        state.put("V_HAT", vH.dup());
        AMSGradUpdater u = (AMSGradUpdater) new AMSGrad(lr, beta1, beta2, eps).instantiate(state, true);
        assertEquals(m, state.get("M"));
        assertEquals(v, state.get("V"));
        assertEquals(vH, state.get("V_HAT"));
        for( int i=0; i<3; i++ ) {
            INDArray g1 = Nd4j.linspace(DataType.DOUBLE, 1, 5, 1).reshape(1,5);
            INDArray g2 = g1.dup();
            UpdaterJavaCode.applyAmsGradUpdater(g1, m, v, vH, lr, beta1, beta2, eps, i);
            u.applyUpdater(g2, i, 0);
            assertEquals(m, state.get("M"));
            assertEquals(v, state.get("V"));
            assertEquals(vH, state.get("V_HAT"));
            assertEquals(g1, g2);
        }
    }
    @Test
    public void testNadamUpdater(){
        double lr = 1e-3;
        double beta1 = 0.9;
        double beta2 = 0.999;
        double eps = 1e-8;
        INDArray m = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        INDArray v = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        Map<String,INDArray> state = new HashMap<>();
        state.put("M", m.dup());
        state.put("V", v.dup());
        NadamUpdater u = (NadamUpdater) new Nadam(lr, beta1, beta2, eps).instantiate(state, true);
        assertEquals(m, state.get("M"));
        assertEquals(v, state.get("V"));
        for( int i=0; i<3; i++ ) {
            INDArray g1 = Nd4j.linspace(DataType.DOUBLE, 1, 5, 1).reshape(1,5);
            INDArray g2 = g1.dup();
            UpdaterJavaCode.applyNadamUpdater(g1, m, v, lr, beta1, beta2, eps, i);
            u.applyUpdater(g2, i, 0);
            assertEquals(m, state.get("M"));
            assertEquals(v, state.get("V"));
            assertEquals(g1, g2);
        }
    }
    @Test
    public void testNesterovUpdater(){
        double lr = 0.1;
        double momentum = 0.9;
        INDArray v = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        Map<String,INDArray> state = new HashMap<>();
        state.put("V", v.dup());
        NesterovsUpdater u = (NesterovsUpdater) new Nesterovs(lr, momentum).instantiate(state, true);
        assertEquals(v, state.get("V"));
        for( int i=0; i<3; i++ ) {
            INDArray g1 = Nd4j.linspace(DataType.DOUBLE, 1, 5, 1).reshape(1,5);
            INDArray g2 = g1.dup();
            UpdaterJavaCode.applyNesterovsUpdater(g1, v, lr, momentum);
            u.applyUpdater(g2, i, 0);
            assertEquals(v, state.get("V"));
            assertEquals(g1, g2);
        }
    }
    @Test
    public void testRmsPropUpdater(){
        double lr = 0.1;
        double decay = 0.95;
        double eps = 1e-8;
        INDArray g = Nd4j.zeros(DataType.DOUBLE, 1, 5);
        Map<String,INDArray> state = new HashMap<>();
        state.put("G", g.dup());
        RmsPropUpdater u = (RmsPropUpdater) new RmsProp(lr, decay, eps).instantiate(state, true);
        assertEquals(g, state.get("G"));
        for( int i=0; i<3; i++ ) {
            INDArray g1 = Nd4j.linspace(DataType.DOUBLE, 1, 5, 1).reshape(1,5);
            INDArray g2 = g1.dup();
            UpdaterJavaCode.applyRmsProp(g1, g, lr, decay, eps);
            u.applyUpdater(g2, i, 0);
            assertEquals(g, state.get("G"));
            assertEquals(g1, g2);
        }
    }
    @Test
    public void testSgdUpdater(){
        double lr = 0.1;
        SgdUpdater u = (SgdUpdater) new Sgd(lr).instantiate((Map<String,INDArray>)null, true);
        for( int i=0; i<3; i++ ) {
            INDArray g1 = Nd4j.linspace(DataType.DOUBLE, 1, 5, 1).reshape(1,5);
            INDArray g2 = g1.dup();
            UpdaterJavaCode.applySgd(g1, lr);
            u.applyUpdater(g2, i, 0);
            assertEquals(g1, g2);
        }
    }
    /*
    @Test
    public void createUpdaterTestCases(){
        Nd4j.create(1);
        Nd4j.getRandom().setSeed(12345);
        int size = 5;
        for(boolean random : new boolean[]{false, true}) {
            System.out.println("/////////////////////////////// " + (random ? "RANDOM TEST CASES" : "LINSPACE TEST CASES") + " ///////////////////////////////" );
            for (IUpdater u : new IUpdater[]{new AdaDelta(), new Adam(), new AdaMax(), new AMSGrad(), new Nadam(), new Nesterovs(), new RmsProp(), new Sgd()}) {
                System.out.println(" ===== " + u + " =====");
                long ss = u.stateSize(size);
                INDArray state = ss > 0 ? Nd4j.create(DataType.DOUBLE, 1, ss) : null;
                GradientUpdater gu = u.instantiate(state, true);
                System.out.println("Initial state:");
                Map<String, INDArray> m = gu.getState();
                for (String s : m.keySet()) {
                    System.out.println("state: " + s + " - " + m.get(s).toStringFull());
                }
                for (int i = 0; i < 3; i++) {
                    System.out.println("Iteration: " + i);
                    INDArray in;
                    if(random){
                        in = Nd4j.rand(DataType.DOUBLE, 1, 5);
                    } else {
                        in = Nd4j.linspace(DataType.DOUBLE, 1, 5, 1).reshape(1, 5);
                    }
                    System.out.println("grad: " + in.toStringFull());
                    gu.applyUpdater(in, 0, 0);
                    System.out.println("update: " + in.toStringFull());
                    m = gu.getState();
                    for (String s : m.keySet()) {
                        System.out.println("state: " + s + " - " + m.get(s).toStringFull());
                    }
                }
            }
        }
    }
    */
 }