Events removed from Java (#219)

* replace mutex with lock_guards Signed-off-by: raver119 <raver119@gmail.com> * Events ditched from Java CUDA logic Signed-off-by: raver119 <raver119@gmail.com>
2020-02-07 12:34:55 +03:00 · 2020-02-07 12:34:55 +03:00 · a0da5a9e47
commit a0da5a9e47
parent 937a27ae27
8 changed files with 49 additions and 50 deletions
--- a/libnd4j/include/helpers/cuda/ConstantHelper.cu
+++ b/libnd4j/include/helpers/cuda/ConstantHelper.cu
@ -92,7 +92,7 @@ namespace nd4j {
    }
    void* ConstantHelper::replicatePointer(void *src, size_t numBytes, memory::Workspace *workspace) {
-        _mutex.lock();
+        std::lock_guard<std::mutex> lock(_mutex);
        auto deviceId = getCurrentDevice();
        Nd4jPointer constantPtr = nullptr;
@ -116,7 +116,6 @@ namespace nd4j {
            if (res != 0)
                throw cuda_exception::build("cudaMemcpy failed", res);
            _mutex.unlock();
            return ptr;
        } else {
            auto originalBytes = numBytes;
@ -130,7 +129,6 @@ namespace nd4j {
            if (res != 0)
                throw cuda_exception::build("cudaMemcpyToSymbol failed", res);
            _mutex.unlock();
            return reinterpret_cast<int8_t *>(constantPtr) + constantOffset;
        }
    }
@ -152,7 +150,7 @@ namespace nd4j {
        ConstantDataBuffer* result;
        // access to this holder instance is synchronous
-        holder->mutex()->lock();
+        std::lock_guard<std::mutex> lock(*holder->mutex());
        if (holder->hasBuffer(dataType)) {
             result = holder->getConstantDataBuffer(dataType);
@ -175,8 +173,6 @@ namespace nd4j {
            holder->addBuffer(dataBuffer, dataType);
            result = holder->getConstantDataBuffer(dataType);
        }
        // release holder lock
        holder->mutex()->unlock();
        return result;
    }
--- a/libnd4j/include/helpers/cuda/ConstantShapeHelper.cu
+++ b/libnd4j/include/helpers/cuda/ConstantShapeHelper.cu
@ -57,7 +57,7 @@ namespace nd4j {
    ConstantDataBuffer ConstantShapeHelper::bufferForShapeInfo(const ShapeDescriptor &descriptor) {
        int deviceId = AffinityManager::currentDeviceId();
-        _mutex.lock();
+        std::lock_guard<std::mutex> lock(_mutex);
        if (_cache[deviceId].count(descriptor) == 0) {
            auto hPtr = descriptor.toShapeInfo();
@ -65,15 +65,9 @@ namespace nd4j {
            ConstantDataBuffer buffer(hPtr, dPtr, shape::shapeInfoLength(hPtr) * sizeof(Nd4jLong), DataType::INT64);
            ShapeDescriptor descriptor1(descriptor);
            _cache[deviceId][descriptor1] = buffer;
-            auto r = _cache[deviceId][descriptor1];
+            return _cache[deviceId][descriptor1];
            _mutex.unlock();
            return r;
        } else {
-            ConstantDataBuffer r = _cache[deviceId].at(descriptor);
+            return _cache[deviceId].at(descriptor);
            _mutex.unlock();
            return r;
        }
    }
@ -83,18 +77,10 @@ namespace nd4j {
    }
    bool ConstantShapeHelper::checkBufferExistenceForShapeInfo(ShapeDescriptor &descriptor) {
        bool result;
        auto deviceId = AffinityManager::currentDeviceId();
-        _mutex.lock();
+        std::lock_guard<std::mutex> lock(_mutex);
-        if (_cache[deviceId].count(descriptor) == 0)
+        return _cache[deviceId].count(descriptor) != 0;
            result = false;
        else
            result = true;
        _mutex.unlock();
        return result;
    }
    Nd4jLong* ConstantShapeHelper::createShapeInfo(const nd4j::DataType dataType, const char order, const int rank, const Nd4jLong* shape) {
--- a/libnd4j/include/helpers/cuda/ConstantTadHelper.cu
+++ b/libnd4j/include/helpers/cuda/ConstantTadHelper.cu
@ -64,7 +64,7 @@ namespace nd4j {
    TadPack ConstantTadHelper::tadForDimensions(TadDescriptor &descriptor) {
        const int deviceId = AffinityManager::currentDeviceId();
-        _mutex.lock();
+        std::lock_guard<std::mutex> lock(_mutex);
        if (_cache[deviceId].count(descriptor) == 0) {
            const auto shapeInfo = descriptor.originalShape().toShapeInfo();
@ -97,14 +97,12 @@ namespace nd4j {
            _cache[deviceId][descriptor] = t;
            TadPack r = _cache[deviceId][descriptor];
            _mutex.unlock();
            delete[] shapeInfo;
            return r;
        } else {
            TadPack r = _cache[deviceId][descriptor];
            _mutex.unlock();
            return r;
        }
--- a/nd4j/nd4j-backends/nd4j-backend-impls/nd4j-cuda/src/main/java/org/nd4j/jita/allocator/impl/AtomicAllocator.java
+++ b/nd4j/nd4j-backends/nd4j-backend-impls/nd4j-cuda/src/main/java/org/nd4j/jita/allocator/impl/AtomicAllocator.java
@ -469,8 +469,8 @@ public class AtomicAllocator implements Allocator {
        memoryHandler.purgeZeroObject(bucketId, objectId, point, copyback);
-        getFlowController().getEventsProvider().storeEvent(point.getLastWriteEvent());
+        //getFlowController().getEventsProvider().storeEvent(point.getLastWriteEvent());
-        getFlowController().getEventsProvider().storeEvent(point.getLastReadEvent());
+        //getFlowController().getEventsProvider().storeEvent(point.getLastReadEvent());
    }
    /**
--- a/nd4j/nd4j-backends/nd4j-backend-impls/nd4j-cuda/src/main/java/org/nd4j/jita/concurrency/EventsProvider.java
+++ b/nd4j/nd4j-backends/nd4j-backend-impls/nd4j-cuda/src/main/java/org/nd4j/jita/concurrency/EventsProvider.java
@ -26,11 +26,11 @@ import java.util.concurrent.ConcurrentLinkedQueue;
 import java.util.concurrent.atomic.AtomicLong;
 /**
 *
 * @author raver119@gmail.com
 */
@Deprecated
 public class EventsProvider {
    //private static final EventsProvider INSTANCE = new EventsProvider();
    private List<ConcurrentLinkedQueue<cudaEvent_t>> queue = new ArrayList<>();
    private AtomicLong newCounter = new AtomicLong(0);
    private AtomicLong cacheCounter = new AtomicLong(0);
--- a/nd4j/nd4j-backends/nd4j-backend-impls/nd4j-cuda/src/main/java/org/nd4j/jita/flow/impl/SynchronousFlowController.java
+++ b/nd4j/nd4j-backends/nd4j-backend-impls/nd4j-cuda/src/main/java/org/nd4j/jita/flow/impl/SynchronousFlowController.java
@ -72,12 +72,7 @@ public class SynchronousFlowController implements FlowController {
    @Override
    public void waitTillFinished(AllocationPoint point) {
-        /*CudaContext context = point.getCurrentContext(); //(CudaContext) allocator.getDeviceContext().getContext();
+        // this should be always null, since synchronization happens in C++ now
        if (context == null)
            context = (CudaContext) allocator.getDeviceContext().getContext();
        context.syncOldStream();
        */
        if (point.getLastWriteEvent() != null) {
            point.getLastWriteEvent().synchronize();
        }
@ -181,8 +176,8 @@ public class SynchronousFlowController implements FlowController {
    @Override
    public void registerAction(CudaContext context, AllocationPoint result, AllocationPoint... operands) {
-
+        // this method is irrelevant now, everything happens in C++ now
-
+        /*
        eventsProvider.storeEvent(result.getLastWriteEvent());
        result.setLastWriteEvent(eventsProvider.getEvent());
        result.getLastWriteEvent().register(context.getOldStream());
@ -194,6 +189,7 @@ public class SynchronousFlowController implements FlowController {
            operand.getLastReadEvent().register(context.getOldStream());
        }
        //   context.syncOldStream();
        */
    }
    @Override
@ -204,9 +200,6 @@ public class SynchronousFlowController implements FlowController {
            val pointOperand = allocator.getAllocationPoint(operand);
            pointOperand.tickDeviceWrite();
            eventsProvider.storeEvent(pointOperand.getLastWriteEvent());
            pointOperand.setLastWriteEvent(eventsProvider.getEvent());
            pointOperand.getLastWriteEvent().register(context.getOldStream());
        }
    }
@ -216,18 +209,13 @@ public class SynchronousFlowController implements FlowController {
        val point = allocator.getAllocationPoint(result);
        point.tickDeviceWrite();
        eventsProvider.storeEvent(point.getLastWriteEvent());
        point.setLastWriteEvent(eventsProvider.getEvent());
        point.getLastWriteEvent().register(context.getOldStream());
        for (INDArray operand : operands) {
            if (operand == null || operand.isEmpty())
                continue;
            val pointOperand = allocator.getAllocationPoint(operand);
-            eventsProvider.storeEvent(pointOperand.getLastReadEvent());
+            pointOperand.tickDeviceRead();
            pointOperand.setLastReadEvent(eventsProvider.getEvent());
            pointOperand.getLastReadEvent().register(context.getOldStream());
        }
    }
--- a/nd4j/nd4j-backends/nd4j-backend-impls/nd4j-cuda/src/main/java/org/nd4j/linalg/jcublas/buffer/BaseCudaDataBuffer.java
+++ b/nd4j/nd4j-backends/nd4j-backend-impls/nd4j-cuda/src/main/java/org/nd4j/linalg/jcublas/buffer/BaseCudaDataBuffer.java
@ -307,7 +307,6 @@ public abstract class BaseCudaDataBuffer extends BaseDataBuffer implements JCuda
        if (allocationPoint.getHostPointer() == null) {
            val location = allocationPoint.getAllocationStatus();
            if (parentWorkspace == null) {
                //log.info("dbAllocate step");
                // let cpp allocate primary buffer
                NativeOpsHolder.getInstance().getDeviceNativeOps().dbAllocatePrimaryBuffer(ptrDataBuffer);
            } else {
--- a/nd4j/nd4j-backends/nd4j-backend-impls/nd4j-native/src/main/java/org/nd4j/nativeblas/Nd4jCpu.java
+++ b/nd4j/nd4j-backends/nd4j-backend-impls/nd4j-native/src/main/java/org/nd4j/nativeblas/Nd4jCpu.java
@ -19177,6 +19177,38 @@ public static final int TAD_THRESHOLD = TAD_THRESHOLD();
                                                                                }
 //         #endif
        /**
         * solve op. - solve systems of linear equations - general method.
         *
         * input params:
         *    0 - the tensor with dimension (x * y * z * ::: * M * M) - left parts of equations
         *    1 - the tensor with dimension (x * y * z * ::: * M * K) - right parts of equations
         *
         * boolean args:
         *    0 - adjoint - default is false (optional) - indicate input matrix or its adjoint (hermitian addition) should be used
         *
         * return value:
         *    tensor with dimension (x * y * z * ::: * M * K) with solutions
         *
         */
 //         #if NOT_EXCLUDED(OP_solve)
        @Namespace("nd4j::ops") public static class solve extends DeclarableCustomOp {
            static { Loader.load(); }
            /** Pointer cast constructor. Invokes {@link Pointer#Pointer(Pointer)}. */
            public solve(Pointer p) { super(p); }
            /** Native array allocator. Access with {@link Pointer#position(long)}. */
            public solve(long size) { super((Pointer)null); allocateArray(size); }
            private native void allocateArray(long size);
            @Override public solve position(long position) {
                return (solve)super.position(position);
            }
                                                                                    public solve() { super((Pointer)null); allocate(); }
                                                                                    private native void allocate();
                                                                                    public native ShapeList calculateOutputShape(ShapeList inputShape, @ByRef Context block);
                                                                                }
 //         #endif
        /**
         * lu op. - make LUP decomposition of given batch of 2D square matricies
         *