如何用C++实现自己的Tensorflow（如何编写一个c程序）- 小程序工具

如何用C++实现自己的Tensorflow（如何编写一个c程序）

网友投稿 1566 2022-08-21 12:40:10

如何用C++实现自己的Tensorflow（如何编写一个c程序）

在我们开始之前，以下是代码：

Branch with Eigen backend

Branch that only supports scalars

我和 Minh Le 一起做了这个项目。

为什么？

如果你是CS专业的人员，可能听过这句“不要使自己陷入_”的话无数次。CS有加密、标准库、解析器等等。我觉得现在还应该包含ML库。

不管事实如何，它仍然是一个值得学习的惊人的教训。人们现在认为TensorFlow和类似的库是理所当然的；把它们当成是一个黑盒子，让其运行。没有多少人知道后台发生了什么。这真是一个非凸的优化问题！不要停止搅拌那堆东西，直到它看起来合适为止（结合下图及机器学习系统知识去理解这句话）。

Tensorflow

TensorFlow是由Google开源的一个深度学习库。在TensorFlow的内核，有一个大的组件，将操作串在一起，行成一个叫做运算符图的东西。这个运算符图是一个有向图 G = ( , )

,在某些节点 u 1 , u 2 , … , u n , v ∈ 和 e 1 , e 2 , … , e n ∈ , e i = ( u i , v ) 存在某些运算符将 u 1 , … , u n 映射到 v 。

例如，如果我们有x + y = z，那么 ( x , ) , ( , ) ∈

。

这对于评估算术表达式非常有用。我们可以通过寻找运算符图中的 sinks 来得到结果。 Sinks 是诸如 v ∈ , ∄ e = ( v , u )

这样的顶点。换句话说，这些顶点没有到其它顶点的有向边。同样的， sources 是 v ∈ , ∄ e = ( u , v ) 。

对我们来说，总是把值放在sources，值会传播到Sinks。

反向模式求导

如果认为我的解释不够好，这里有一些幻灯片。

求导是TensorFlow所需的许多模型的核心要求，因为需要它来运行梯度下降算法。每个高中毕业的人都知道什么是求导; 它只是获取函数的导数，如果函数是由基本函数组成的复杂组合，那么就做链式法则。

超级简单的概述

如果有一个这样的函数：

f(x,y) = x * y

那么关于X的求导将产生：

( x , ) x =

关于Y的求导将产生：

( x , ) = x

另外一个例子：

( x 1 , x 2 , . . . , x n ) = ( x ) = x x

这个导数是:

( x ) x i = 2 x i

所以梯度就是:

∇ x ( x ) = 2 x

链式法则，譬如应用于复杂的函数 ( ( h ( x ) ) )

：

( ( h ( x ) ) ) x = ( ( h ( x ) ) ) ( h ( x ) ) ( h ( x ) ) h ( x ) h ( x ) x

5分钟内反向模式

现在记住运算符图的DAG结构，以及上一个例子中的链式法则。如果要评估，我们可以看到：

x -> h -> g -> f

作为图表。会给出答案f。但是，我们也可以采取反向求解：

dx <- dh <- dg <- df

这看起来像链式法则！需要将导数相乘在一起，以获得最终结果。

下图是一个运算符图的例子：

所以这基本上退化成图遍历问题。有谁发觉拓扑排序和DFS / BFS吗？

所以要支持双向拓扑排序的话，需要包含一组父节点和一组子节点，Sinks是另一个方向的Sources, 反之亦然。

实施

在开学之前，Minh Le和我开始设计这个项目。我们决定使用Eigen 库后台进行线性代数运算。它们有一个称为MatrixXd的矩阵类。我们在这里使用它。

每个变量节点由var类表示：

class var {

// Forward declaration

struct impl;

public:

// For initialization of new vars by ptr

var(std::shared_ptr);

var(double);

var(const MatrixXd&);

var(op_type, const std::vector&);

...

// Access/Modify the current node value

MatrixXd getValue() const;

void setValue(const MatrixXd&);

op_type getOp() const;

void setOp(op_type);

// Access internals (no modify)

std::vector& getChildren() const;

std::vector getParents() const;

...

private:

// PImpl idiom requires forward declaration of the class:

std::shared_ptr pimpl;

};

struct var::impl{

public:

impl(const MatrixXd&);

impl(op_type, const std::vector&);

MatrixXd val;

op_type op;

std::vector children;

std::vector> parents;

};

在这里，我们采用 pImpl 惯用法，这意味着“通过指针来实现”。这在许多方面是非常好的，例如接口解耦实现，当在堆栈上有一个本地shell接口时，允许在堆栈上实例化。pImpl的副作用是运行时间稍慢，但是编译时间缩短了很多。这让我们通过多个函数调用/返回来保持数据结构的持久性。像这样的树状数据结构应该是持久的。

有几个枚举，告诉我们目前正在执行哪些操作：

enum class op_type {

plus,

minus,

multiply,

divide,

exponent,

log,

polynomial,

dot,

...

none // no operators. leaf.

};

执行该树评价的实际类称为expression：

class expression {

public:

expression(var);

...

// Recursively evaluates the tree.

double propagate();

...

// Computes the derivative for the entire graph.

// Performs a top-down evaluation of the tree.

void backpropagate(std::unordered_map& leaves);

...

private:

var root;

};

在反向传播的内部，有一些类似于此的代码：

backpropagate(node, dprev):

derivative = differentiate(node)*dprev

for child in node.children:

backpropagate(child, derivative)

这相当于做一个DFS; 你看到了吗？

为什么选择C ++？

事实上，C ++语言用于此不是特别合适。我们可以花更少的时间用OCaml等功能性语言来开发。现在我明白了为什么Scala被用于机器学习，主要看你喜欢;）。

然而，C ++有明显的好处：

Eigen

例如，可以直接使用tensorflow的线性代数库，称之为Eigen。这是一个多模板惰性计算的线性代数库。类似于表达式树的样子，构建表达式，只有在需要时才会对表达式进行评估。然而，对于Eigen来说，在编译的时候就确定何时使用模板，这意味着运行时间的减少。我特别赞赏写Eigen的人，因为审视模板的错误，让我的眼睛充血。

Eigen的代码看起来像：

Matrix A(...), B(...);

auto lazy_multiply = A.dot(B);

typeid(lazy_multiply).name(); // the class name is something like Dot_Matrix_Matrix.

Matrix(lazy_multiply); // functional-style casting forces evaluation of this matrix.

Eigen库是非常强大的，这就是为什么它是tensorflow自我使用的主要后台。这意味着除了这种惰性计算技术之外，还有其他方面的优化。

运算符重载

用Java开发这些库会非常好—没有 shared_ptrs, unique_ptrs, weak_ptrs 代码；我们可以采取实际的，能胜任的,GC算法。使用Java开发可以节省许多开发时间，更不用说执行速度也会变得更快。可是，Java不允许运算符重载，因而它们就不能这样：

// These 3 lines code up an entire neural network!

var sigm1 = 1 / (1 + exp(-1 * dot(X, w1)));

var sigm2 = 1 / (1 + exp(-1 * dot(sigm1, w2)));

var loss = sum(-1 * (y * log(sigm2) + (1-y) * log(1-sigm2)));

顺便说一下，上面的是实际代码。这不是很漂亮吗？我认为这比用于TensorFlow的python包装更漂亮。只想让你知道，这些也都是矩阵。

在Java语言中，这将是极其丑陋的，有着一堆 add(), divide() …等等代码。更为重要的是，用户将被隐式强制使用PEMDAS（括号，指数、乘、除、加、减），这一点上，C++的运算符表现的很好。

性能，而不是Bug

有一些东西，你可以在这个库中实际指定，TensorFlow没有明确的API，或者我不知道。比如，如果想训练某个特定子集的权重，可以只反向传播到感兴趣的具体来源。这对于卷积神经网络的转移学习非常有用，一些大的网络，如VGG19网络，很容易用TensorFlow实现，其附加的几个额外的层的权重是根据新的域样本进行训练的。

基准

用Python的Tensorflow库，在Iris数据集上对10000个历史纪元进行分类训练，这些历史纪元具有相同的超参数，结果是：

Tensorflow的神经网络 23812.5 ms

Scikit的神经网络库： 22412.2 ms

Autodiff的神经网络，迭代，优化： 25397.2 ms

Autodiff的神经网络，具有迭代，无优化： 29052.4 ms

Autodiff的神经网络，具有递归，无优化： 28121.5 ms

如此看来，令人惊讶的是，Scikit在所有这些中运行最快。这可能是因为我们没有做大量的矩阵乘法运算。也可能是因为tensorflown不得不通过变量初始化采用额外的编译步骤。或者，也许可能不得不在python中运行循环，而不是在C语言中（python循环真的很糟糕！）。我自己也不确定这到底是因为什么。

我完全意识到这绝对不是一个全面的基准测试，因为它只适用于在特定情况下的单个数据点。不过，这个库的性能并不是最先进的技术，因为我们不希望把自己卷进TensorFlow。

来自：http://blog.csdn.net/dev_csdn/article/details/78500708

前后端分离了，然后呢？（什么前后端分离）

1566 2022-08-21

如何用C++实现自己的Tensorflow（如何编写一个c程序）

HTML 5：足以改变我们未来生活的十项提示

HDU 2013 蟠桃记（递归+水题）

前后端分离了，然后呢？（什么前后端分离）

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序快速入门

资源下载使用

实时内容互动引擎

跨终端设备适配

小程序生成App

小程序生命周期管理

AI 开发小程序

推荐文章

前端跨端方案的未来，技术与市场的双重挑战

超级应用的崛起，重塑数字生活的未来

企业app开发流程是什么？

app运营模式有哪些？

探讨如何通过融媒体宣发矩阵建设，提升用户体验与品牌曝光率

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

超级App 解决方案

智慧车载解决方案

信创解决方案

物联网解决方案

小游戏解决方案

音视频解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计