林夕水共

P2P 打洞技术详解

2021-03-28T15:50:58.000Z

何为打洞？(what)

英文翻译

NAT traversal : NAT 穿越
NAT Hole Punching : NAT 打孔

定义

(UDP) 打洞技术是通过中间公网服务器的协助在通信双方的 NAT 网关上建立相关的映射表项，使得双方发送的报文能直接穿透对方的 NAT 网关（防火墙），实现 P2P 直连。

洞：所谓的洞就是映射规则，外部能够主动与之通信的规则

为何要打洞？(why)

直接连不行吗？

NAT 技术的存在，一方面减缓了 IPV4 的需求，使得私网 IP 地址通过映射成公网 IP 地址的方式与外界通信
但另外一方面， NAT 也对安全性做了限制（防火墙），外界不能主动与私网 IP 进行通信

打洞有什么好处？

节省流量
降低中心服务器压力
下载速度快（比如迅雷、直播等）
安全性和私密性

如何打洞？（how)

通常我们说的打洞技术基本上都是使用 UDP 来实现的，当然 TCP 也行，只不过会复杂一点（后面我们讨论一下 TCP 打洞）。

使用中继设备（proxy)

主要利⽤第三⽅的服务器作为中转服务器，⽐如Application Level Gateway (ALG),application server, application server with agent, TURN。

有点是稳定可靠，缺点是延迟较⼤，不适合在p2p的⽹络中使⽤。

本质上其实不算 P2P 打洞的范畴了。

直连

基本思路是：A 和 B 互相知道对方的公网 IP:Port，使用对方公网 IP:Port 通信。

通过修改通信协议，或者 NAT 设备来帮助节点之前的直接通信，⽐如： tunnel, NAT-PMP, UPnP, MidCom, STUN hole punching, ICE, Teredo等。其中STUN hole punching⽅法在实践中应⽤最为广泛。

UPnP: 把内网 IP 直接映射为 NAT 外网 IP (纯转发模式)，类似公网 IP
STUN: 比较出名的打洞协议，本质上就是利用一台或多台公网服务器协助位于不同私网的两个节点 A 和 B 进行打洞。

NAT 设备类型

Full Cone NAT：允许任何外部 IP 任何端⼝连⼊ NAT，只要 NAT 内部 host 产⽣过 IP 端⼝映射。 (不限制任何 IP)
Restricted Cone NAT：只允许外部指定 IP 连⼊当前 NAT，即 NAT 内 host 主动连接过的 IP。（限制 IP)
Port-Restricted Cone NAT：只允许内⽹设备主动连接过的外⽹ IP 和 Port 连⼊。（限制 IP + Port）
Symmetric NAT：这种类型的 NAT ⾏为跟端⼝限制型的 NAT 类型相似，不同的是，对于向外连接的不同的 IP 和 Port，NAT 随机分配⼀个 Port 来完成地址转换，完成对外连接。（只要向外的 IP:Port 不一致则映射到不同端口）

注意：对于前三种 NAT 设备，内网节点连接不同的 server {IP, Port} 对映射外网端口一致；

主要有以上几种，市面上还有少量的其他类型

Full Cone NAT (全锥形)

NAT 映射规则形成后，外部其他主机能够主动与之通信

举例如下：

A 位于私网内部
A 访问 https://www.google.com/
NAT-A 记录了映射规则，比如 {local_host,local_port,public_port,dest_host} 等信息
外部其他主机（比如 google.com) 能主动与 A 通信（通过 A 的 public_ip:public_port)

Restricted Cone NAT（限制型）

在 Full Cone NAT 的基础上多加了一条限制规则：

只允许访问过的 server IP 与之通信

举例如下：还是上面的例子，后续只允许 https://www.google.com/ (对应 IP 203.107.53.50) 与之通信，而不 care 203.107.53.50 的端口号（比如从 6666 端口过来的数据）。

Port-Restricted Cone NAT（端口限制型）

在 Restricted Cone NAT 的基础上多加了一条限制规则：

只允许访问过的 server {IP, Port} 与之通信

举例如下：还是上面的例子，后续只允许 https://www.google.com/ (对应 IP 203.107.53.50) 的 80 端口与之通信，其他端口不行。

Symmetric NAT（对称型）

访问规则同 Port-Restricted Cone NAT：

只允许访问过的 server {IP, Port} 与之通信

区别是连接不同的 server {IP, Port}，映射到 NAT 上的公网 Port 不一致，且映射规则不确定。

有些 NAT 设备会进行简单的 +1 操作实现端口映射，比如：{local_port: 6000, public_port: 6000, Server1}，{local_port: 6000, public_port: 6001, Server2}，{local_port: 6000, public_port: 6003, Server3}

有些 NAT 设备为了安全性，可能会随机进行端口映射，提高端口猜测的难度。

场景分析

(假设已经获取到⽬标邻居的IP Port 等信息)

先向公⽹服务器发起请求，探测⾃⼰是不是在⼀个 NAT 下
如果不在，说明自己是公网节点，可以与目标建立连接（让目标主动连接）
如果在，则获取⾃⼰的 NAT 类型是什么，根据不同的类型采取相应不同的策略

注意：A 和 B 均要与 server 一致保持连接心跳，确保 NAT 映射端口有效

节点 A 在 NAT 下面，节点 B 在公网环境中

打洞策略：

只要保证节点 A 主动向节点 B 发起连接，两者就可以连接成功

节点 A 和 B 在相同的 NAT 下

打洞策略：

A 从 server 获取 B 的信息，server 同时发给 A 和 B 对方的信息（公网/私网信息）
A 与 B 各自收到 server 的信息后，同时向对方发起连接，公网和私网都发（理论上私网会快一点），一旦收到回复，则停止
建立连接成功

节点 A 和 B 在不同的 NAT 下（这是我们要重点讨论的）

节点 A 和 B 的 NAT 可能是任意一种 NAT 类型

A 和 B 均是锥形 NAT
A 和 B 分别是对称型和普通锥形(全锥形，限制型锥形)
A 和 B 分别是对称型和 Port-Restricted Cone NAT （端口限制型）
A 和 B 都是对称型

A 和 B 均是锥形 NAT

锥形 NAT 之间可以容易的打洞成功，具体流程如下：

以下流程假定已经完成了 NAT 类型探测，A/B 知道自己的 NAT 类型，以及通过 NAT 映射出去的端口 PA1/PB1。

打洞策略：

A 向 server 发起与 B 的打洞请求，server 向 B 转发打洞请求，同时A 向 PB1 直接发送探测包，那么 A 为 B 在 PA1 已经成功打洞，但是 A 的消息无法到达，因为 B 的 NAT 会将不明的地址(PA1) 丢弃。（注意：这里有可能不是丢弃，而是拒绝）
B 收到从 server 转发过来的打洞请求后，向 PA1 直接发送探测包，这时 B 的 NAT 可以放行 PA1 的消息了，也就是 B 为 A 在 PB1 上完成了打洞。
至此，A 和 B 消息能够互通，打洞成功

注意，上面斜体部分，NAT 对不明地址的行为可能是拒绝，待会会讨论。

A 和 B 分别是对称型和普通锥形(全锥形，限制型锥形)

假设 A 是对称 NAT，B 是普通锥形：

打洞策略：

A 向 server 发起与 B 的打洞请求，server 向 B 转发打洞请求，同时发送探测包到 PB1，这个探测包是从 PA2 发出的，不是 PA1(因为对称型)。也就是 A 在端口 PA2 为 PB1 完成打洞，同时 B 的 NAT 会丢弃来自不明地址 PA2 的包。（注意：这里有可能不是丢弃，而是拒绝）
B 收到从 server 转发过来的打洞请求，向 PA1 发送初始探测包（一开始不知道 PA2)，这个时候 B 已经为 A 在 PB1 打好洞，至此 PA2 的消息能够通过 PB1 到达 B。（注意：因为是普通锥形，不对端口做限制，所以从不同端口 PA2 过来的包能被 B 接受）
经过步骤2，B 可以收到 PA2 的消息，同时结合 A 的 NAT 类型，重新改发探测包到 PA2，于是 A 在 PA2 能收到 PB1 的探测包，至此 A 和 B 消息可以互通，打洞成功

如果 A 和 B 正好角色相反，那么可以调整打洞的方向即可

A 和 B 分别是对称型和 Port-Restricted Cone NAT （端口限制型）

原本大致过程是同上面一种场景，但是由于 B 是端口限制型 NAT，会导致 PB1 只允许 PA1 通过（上面红色字体部分B 已经为 A 在 PB1 打好洞），从而 PA2 过来的包会被 B 的 NAT 拒绝，导致打洞失败。

A 和 B 都是对称型

由于 A 和 B 均是对称型 NAT，那么比上面一种场景更严格，A 和 B 探测得到的公网 Port 均会被修改，无法完成打洞。

对称型打洞真的没有办法了吗？

我们再来考虑对称型和端口限制型的打洞，由于 B 收到 server 转发过来的打洞请求后，是向 PA1 发送探测包的，因为 B 只知道 PA1（PA1 是 A 与 server 连接是映射的端口号，server 也只知道 PA1)，但是 A 由于是对称型 NAT，会从一个新端口 PA2 向 B 发包，但是 B 由于是端口限制型，只允许 PA1 端口的包通过，所以 B 会拒绝 PA2。

还是上面那张图：

A 从 PA2 发向 B 的包一直会被 B 拒绝，也就是说 B 无法在 NAT-B 上为 A 打洞。

那假如 B 探测包不是发往 PA1 而是 PA2 呢？那 A 和 B 就能打洞成功。

那么问题来了，B 如何知道 PA2 呢？

通常来讲，有两种办法：

端口探测
端口预测

端口探测

对于对称型的 NAT在映射内网端口的时候，有一些 NAT 设备会采取比较傻瓜的端口分配方法，比如进行简单的线性变化。

比如每次分配的端口号递增 1
PA2 = (PA1 + PB1 + IPA + IPB) % 65535

对于这种 NAT，要探测这种特性需要用到两台及以上的公网 server，通过与不同的 server 连接映射的公网 Port，归纳总结自己的 NAT 映射规律，那么对于 B 来说，打洞的时候第一次向 A 发包，就直接往 PA2 发包就好了。

端口预测

有一些对称型 NAT 为了安全考虑，分配端口的方法难以预测，比如随机分配端口，那么对于这种情况，如何预测端口号呢？

基于一个理论：生日攻击理论

生日攻击理论讲的是在一个班级里，每个人的生日可能是 365 天里的任何一天，每年有 365 天，如果要让 至少有两人的生日相同的概率超过 50%，问这个班级最少需要多少人？

答案是：(xx)

是不是出乎预料？

生日攻击理论说的直白点就是，利用了远小于样本集的尝试次数，就能够很大概率获得两个相同的碰撞采样结果。

那么针对端口号的样本集 65535，实际是 (1025, 65535]，双方随机打洞需要尝试多少次（打多少洞）才能刚好碰撞成功呢？

>>> cat nat_birth_attack.py                                                                                                                                                                                         

#!/usr/bin/env python
#-*- coding:utf8 -*-


import os
import math
from decimal import *

getcontext().prec = 6

def birthday_attack(total, rate):
    k = 0
    while True:
        k += 1
        a,t = 1,1
        for i in range(k):
            a = a * (total - i)
            t = t *  total

        np = Decimal(a) / Decimal(t)
        p = 1 - np
        if p > rate:
            print('total:{0} trytimes:{1}  result:{2} > target_rate:{3} success'.format(total, k, p, rate))
            break
        else:
            print('total:{0} trytimes:{1}  result:{2} < target_rate:{3} failed, continue...'.format(total, k, p, rate))
            continue

    return k



if __name__ == '__main__':
    total_samples = 365
    rate = 0.5
    min_k =  birthday_attack(total_samples, rate)
    print("when total_samples is {0}, if request for rate greater than {1}, then try at least {2} times is ok\n".format(total_samples, rate, min_k))

运行结果：

>>> python nat_birth_attack.py                                                                                                                                                                                      ‹git:master ✘› 11:00.53 四  3 25 2021 >>>
total:365 trytimes:1  result:0 < target_rate:0.5 failed, continue...
total:365 trytimes:2  result:0.002740 < target_rate:0.5 failed, continue...
total:365 trytimes:3  result:0.008204 < target_rate:0.5 failed, continue...
total:365 trytimes:4  result:0.016356 < target_rate:0.5 failed, continue...
total:365 trytimes:5  result:0.027136 < target_rate:0.5 failed, continue...
total:365 trytimes:6  result:0.040462 < target_rate:0.5 failed, continue...
total:365 trytimes:7  result:0.056236 < target_rate:0.5 failed, continue...
total:365 trytimes:8  result:0.074335 < target_rate:0.5 failed, continue...
total:365 trytimes:9  result:0.094624 < target_rate:0.5 failed, continue...
total:365 trytimes:10  result:0.116948 < target_rate:0.5 failed, continue...
total:365 trytimes:11  result:0.141141 < target_rate:0.5 failed, continue...
total:365 trytimes:12  result:0.167025 < target_rate:0.5 failed, continue...
total:365 trytimes:13  result:0.194410 < target_rate:0.5 failed, continue...
total:365 trytimes:14  result:0.223103 < target_rate:0.5 failed, continue...
total:365 trytimes:15  result:0.252901 < target_rate:0.5 failed, continue...
total:365 trytimes:16  result:0.283604 < target_rate:0.5 failed, continue...
total:365 trytimes:17  result:0.315008 < target_rate:0.5 failed, continue...
total:365 trytimes:18  result:0.346911 < target_rate:0.5 failed, continue...
total:365 trytimes:19  result:0.379119 < target_rate:0.5 failed, continue...
total:365 trytimes:20  result:0.411438 < target_rate:0.5 failed, continue...
total:365 trytimes:21  result:0.443688 < target_rate:0.5 failed, continue...
total:365 trytimes:22  result:0.475695 < target_rate:0.5 failed, continue...
total:365 trytimes:23  result:0.507297 > target_rate:0.5 success
when total_samples is 365, if request for rate greater than 0.5, then try at least 23 times is ok

把 total 修改成 65535，概率 rate 修改成 80%，计算得到尝试次数为 460 次。

1 2	total:65536 trytimes:460 result:0.801039 > target_rate:0.8 success when total_samples is 65536, if request for rate greater than 0.8, then try at least 460 times is ok

也就是说对于 B 来说，可以尝试随机往 A 的 460 个不同的端口发探测包，就有 80% 的概率能够正好预测到 NAT-A 随机分配的 PA2。

460 个探测包的代价基本可以忽略不计。

至此，可以完美实现对称型和端口限制型的打洞。然而遗憾的是，对于对称型和对称型打洞，依然无法实现。

再来讨论下 NAT 对陌生地址包的行为

上面能够打洞成功的场景下，都是基于一个前提是 NAT 对陌生地址发来的包采用的是丢弃策略。这里的陌生地址指的是自己没有主动往外发包的 {dest_ip, dest_port} 对。

如果不是丢弃，而是采用黑名单机制呢？为了安全考虑，有一些 NAT 在收到陌生地址的包后，会触发防火墙模块，并且在自己的 deny 列表中增加一项{PA2, PB1}，随后自己再往 A 发包的时候，本来打算使用 PB1 进行发包，但是发现 deny 列表里已经存在了 PB1，于是会重新选择一个端口号 PB2 发包。于是对于这种锥形 NAT 会退化成对称型的 NAT。

知道了这个原理，要解决也很容易。

设置有限 TTL，避免惊动对方防火墙

一开始 A 往 B 发包，可以设置 TTL 为 3，这个数大到足够通过自己的外网 NAT(可能有多层)，又会被中间的某个运营商 router 丢弃，从而不会惊动 B 的防火墙模块，同时为 B 打好了洞。
同理，B 也做类似的操作，为 A 打好洞
A 和 B 两边都等待一段时间，比如 2 s
再互相发探测包，不用设置 TTL
打洞成功

关于 TTL 的值设置为多少，需要做一定的探测，不然可能设置过小，也许都没有走出自己的 NAT，设置过大，可能导致惊动了对方的防火墙

总结一下

NAT	全锥形	限制型锥形	端口限制型锥形	对称型
全锥形	Direct	Direct	Direct	Direct
限制型锥形	Direct	Hole Punch	Hole Punch	Hole Punch
端口限制型锥形	Direct	Hole Punch	Hole Punch	Hole Punch
对称型	Direct	Hole Punch	Hole Punch	Relay

扩展：讨论一下 TCP 打洞的可行性

TCP 也能实现 NAT 打洞，只不过相比 UDP 会更复杂一点。原因是：

一个UDP套接字由一个二元组来标识，该二元组包含一个目的地址和一个目的端口号；而一个TCP套接字是由一个四元组来标识，包括源IP地址、源端口号、目的IP地址、目的端口号
TCP 套接字仅允许建立 1 对 1 的响应，即应用程序将一个套接字绑定到本地的端口后，试图将第二个套接字绑定到该端口的操作都会失败

基本打洞策略如下：

A 和 B 分别位于不同的 NAT 下面
A 启动 tcp client，bind 一个 local_port PA1’，执行 connect 连接公网 tcp server，server 获取 A 的映射公网端口 PA
B 同上，B 启动 tcp client，bind 一个 local_port PB1’，执行 connect 连接公网 tcp server，server 获取 B 的映射公网端口 PB
A 和 B 保持和 server 的连接，不断开，避免各自的 NAT 上的映射规则过期 {PA1’ -> PA} 和 {PB1’ -> PB1}
A 和 B 通过 server 互相获取对方的公网 Port PA1 和 PB1，准备开始打洞
A 新启动一个 tcp 套接字，使用 SO_REUSEADDR/SO_REUSEPORT 绑定到之前与 server 连接的本地端口，也就是 PA1’，并且调用 listen 处于等待监听状态
B 同上，bind PB1’ 并且调用 listen 处于监听状态
A 再新建一个套接字 bind 到之前的端口，调用 connect 发起向 PB1 的连接，也就是 A 往 PB1 发送 syn 包，也就是为 B 打洞，NAT-B 会丢弃这个包
同时 B也再新建一个套接字 bind 到之前的端口，也调用 connect 发起向 PA1 的连接，也就是 B 往 PA1 发送 syn 包，也就是为 A 打洞
假设 A 发送完 syn 之后，B 的 syn 包达到了 NAT-A，NAT-A 能通过，这个时候有的 linux 系统上 A 会认为自己的异步 connect 调用成功，同时利用相同的 seq 发送 SYN+ACK 包到 PB1，NAT-B 也能顺利通过，再返回 ACK 包，连接建立成功；有的 linux 系统会走正常的 accept 操作，也能顺利建立连接

扩展：讨论一下打洞的有效时间

在 NAT 上的映射规则有失效时间，如果要保持洞口的有效性，需要保持打洞双方的心跳。比如在手机上，这个洞口可能会在 1 min 后失效

扩展：讨论一下多层 NAT 的打洞

我感觉其实单层 NAT 应该是类似的。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2021-03-28 于杭州
By 史矛革

深入浅出paxos

2020-12-05T03:23:58.000Z

前言

这是前段时间在公司内部关于 paxos 做的一次技术分享，主要围绕 basic-paxos/multi-paxos 协议进行，并会对 raft 协议进行一些对比，简单提及了一下 pbft。

取名“深入浅出 paxos”，意思是从分布式模型的简化和抽象系统，讲到分布式数据一致性的核心问题，再引出 paxos 协议的核心，再从纯理论的 basic-paxos 到落地工程实践的 multi-paxos，最后对比 raft、pbft 协议，从简入深，再从深到核心，再到工程实践。

由于是一次技术分享，所以和我之前的技术博文不太一样，有些东西并没有完全写到博客里，包括一些现场讨论等，所以可能读完之后对 paxos 理解效果会差一点。

名词介绍

paxos: 应该是分布式领域较早出现的数据一致性协议（本文研究的正是此协议）
basic paxos: 通常说的 paxos 就是指 basic paxos，或者称为 classical paxos
multi-paxos: paxos 的改进，迈出了工程实践的步伐（性能改善，工程落地）
epaxos/fast-paxos: 其他一些 paxos 的改进，特别是 epaxos 最近几年得到较多的讨论和重视
raft: 从 paxos 而来，类似于 multi-paxos，但是更为简单，容易理解，更为简单
quorum: 英文翻译：法定人数，可以理解为多数派，大多数，超过半数的一个集合，更为精确的定义是 ”任意两个 quorum 必须有交集)
state machine replication model: 复制状态机模型
Crash Fault Tolerance：故障容错（节点离线，网络延迟等）
Byzantine Fault Tolerance：拜占庭容错（节点离线，网络延迟，节点作恶）
pbft: 实用拜占庭容错算法
hotstuff: 也是一种拜占庭容错共识算法
libraBFT: 基于 hotstuff

先认识名词，从整体上有一些概念，战略上藐视。

预先准备

本文重点分析 paxos (basic paxos) 算法。顺带会提及 multi-paxos 以及 raft 算法。

paxos 很难理解？争取听完本次分享，大家能彻底理解 paxos!

先忘记区块链，忘记 pbft，忘记 hotstuff.

单机？分布式？

为什么要有分布式系统？单机容易故障，无法保证服务高可用。

于是出现多副本模型，但多副本模型就存在两个问题：

如何确保复制是成功的？（高可用）
如何确保值是唯一的？（一致性）

复制是否成功

我们首先把整个模型抽象一下，到最简单的模型。为此，我们定义两个操作：

SET X
GET X

在这里先不考虑并发，不考虑正确性，不考虑其他操作，也不考虑多个值。

只有这两个操作，而且只操作数据 X，X 初始值为 null.

根据上面的抽象，我们定义复制成功的要求就是：

如果执行了 SET X，那么 GET X 一定能取到值

基础的复制策略

主从异步复制
主从同步复制
主从半同步复制
多数派写（读）

主从异步复制

不满足复制成功的要求

主从同步复制

失联节点不确定，写入 slave 个数也不确定，不满足复制成功的条件

主从半同步复制

写入 slave 个数不确定，最少 1 个，最多 n 个，有概率性存在无法获取 X，不满足复制成功的要求

多数派写

满足复制成功的要求，先多数派写，再多数派读。

优点：

高可靠性
高可用性
数据完整性有保证

到此，我们解决了成功复制的问题。

值是否唯一

首先，策略我们已经确定，要保证复制成功，需要先多数派写，再多数派读。

扩展一下刚才的抽象，考虑有多个客户端并发的来写（SET X)，那么读到的值将不唯一。

这里我们依然不考虑正确性的问题，我们只考虑唯一性的问题。

再重复一遍系统模型的抽象

只有两个操作 SET 和 GET
只操作一个数据 X，不考虑其他数据
不考虑 X 的正确性，只考虑唯一性
允许并发 SET X，但最终目标是 X 值唯一

抽象是很重要的，能够帮我们简化模型，思考本质的问题。

如何解决并发的问题，或者说多个 client SET X 的问题？

如何解决并发 SET X

如果 SET X 前运行一次多数派读，知道 X 的值可能已经有别人写入了，那么就不写，如果还没有人写入，那么就写入。

道理很简单，但问题是这涉及到两次 rtt，所以其他 client 就有可能插入进来。

怎么解决呢?

拒绝其他写前读取

这里依然有多数派读的要求，Client A 必须收到 a quorum (>n/2) 个响应才认为本次写前读取 true，后续可以放心大胆的写入；否则判定为 false,认为已经有其他节点优先读取了，放弃后续的写。

有了这个保证，那么 Client A 在第二个 rtt 就可以放心的写了。（参考上面的图）

到这里其实就已经讲到 paxos 算法的核心了。(终于讲到 paxos 了）。

也许，我们还可以问两个问题:

如果第一个 rtt 失败了呢？（思考）
如果第二个 rtt 失败了呢？（思考）

初识 paxos

图灵奖大牛 Leslie Lamport （莱斯利·兰伯特）

来自知乎：

Lamport在分布式系统理论方面有非常多的成就，比如Lamport时钟、拜占庭将军问题、Paxos算法等等。除了计算机领域之外，其他领域的无数科研工作者也要成天和Lamport开发的一套软件打交道：著名的LaTeX。这是目前科研行业应用最广泛的论文排版系统，名字中的”La”就是指Lamport。

实际上Paxos在1990年就被提出了。当时Lamport写了一篇名为《The Part-time Parliament》的论文，在这篇文章中作者讲了一个虚构的故事。这个故事发生在希腊的神话中的一个名叫Paxos的岛屿（也就是算法名称的来由），作者将分布式一致性的问题比喻为岛上的立法机构如何对一项决议达成一致的问题。Lamport本来是觉得用故事加以描述更易理解；但其结果完全相反。这篇文章当时的评审几乎没有人看懂，只有一位名叫Butler Lampson的计算机科学家读懂了故事，并意识到这是一篇解决分布式一致性问题的论文。当然这篇论文就被埋没了多年，原文1998年才得以发表，后来Lamport也又重新“正儿八经”地写了一篇《Paxos Made Simple》。

https://lamport.azurewebsites.net/pubs/paxos-simple.pdf

liveness and safety

from wiki:

In order to guarantee safety (also called “consistency”), Paxos defines three properties and ensures the first two are always held, regardless of the pattern of failures:

Validity (or non-triviality)
Only proposed values can be chosen and learned.[15]
Agreement (or consistency, or safety)
No two distinct learners can learn different values (or there can’t be more than one decided value)[15][16]
Termination (or liveness)
If value C has been proposed, then eventually learner L will learn some value (if sufficient processors remain non-faulty).[16]
Note that Paxos is not guaranteed to terminate, and thus does not have the liveness property. This is supported by the Fischer Lynch Paterson impossibility result (FLP)[6] which states that a consistency protocol can only have two of safety, liveness, and fault tolerance. As Paxos’s point is to ensure fault tolerance and it guarantees safety, it cannot also guarantee liveness.

（Basic/Classical) Paxos

开始之前，记住刚才讲到的系统抽象（实际上 paxos 也仅仅只是解决了这个问题，想清楚这个系统抽象，理解起来会容易得多，避免走弯路）

只有两个操作 SET 和 GET
只操作一个数据 X，不考虑其他数据
不考虑 X 的正确性，只考虑唯一性
允许并发 SET X，但最终目标是 X 值唯一

paxos 定义了 3 种角色：

Proposer: 发起提案 value（一个提案可以理解为一个操作，或者一个值）
Acceptor: 接受一个 value 或者驳回
Learners: 当某个提案被大多数 acceptor 接受后，则认为 value 被选定，然后复制 value

Leaners 暂时不重要，可以不用关心

Tips: 这里有一些概念可能比较难以理解，由于中英文的差异，阅读论文的时候可能会比较苦恼

举个例子：
如果你阅读 paxos 的一些文档，可能会经常看到 ”value be choosen” 等一些概念，这里的 choosen 就可以理解为值已经确定，唯一。

主要过程分为两个阶段（如同上述讨论的两个 rtt)

paxos phase1

phase 1a: Prepare

先来看几个概念：

proposal number n: 全局唯一且递增，用来给一个提案编号
proposal v: 一个提案，通常用 value(v) 表示

proposer 发起 “prepare” 请求，请求里携带一个 proposal number n，这个 n 要比它之前的 prepare 消息使用的值大。然后它发送（广播）这个 “prepare” 消息给 a Quorum of Acceptors（大多数的 acceptors)。

值得注意的是，这个 prepare 消息通常不包含具体的提案 v。（正如上面的写前读取，不需要携带将要写的值 x)

proposer 需要持久化它看到的最大的 proposal number

phase 1b: Promise

acceptor 收到从某个 proposer 发过来的 prepare 消息，拿到消息里的 proposal number n.

先看几个概念：

minProposal: 之前已经接收到的 prepare 消息里的最大 proposal number
acceptedProposal: 之前已经接受过的 proposal number
acceptedValue: 之前已经接受过的 proposal

如果 n > minProposal

那么 acceptor 必须返回一个响应，同时做出两个 promise
- promise1: 它将拒绝后续所有 proposal number <= n 的其他 prepare 请求
- promise2: 它将拒绝后续所有 proposal number < n 的其他 accept 请求（第二阶段会讲到）
如果 acceptor 之前已经接受过一个 proposal，那么返回的响应里还会携带 (acceptedProposal, acceptedValue)，否则返回(nil, nil)
同时 acceptor 记录 minProposal = n

如果 n <= minProposal

拒绝这个 Prepare 消息（然后这个 proposer 会以更大的 proposal number 发起 prepare)

这里要注意:

acceptor 需要持久化 (minProposal, acceptedProposal, acceptedValue)，以防止崩溃或者重启

第一阶段对比之前的讨论，就相当于之前的写前读取，用来判断谁准备写入。但是区别是：上面的例子中只接受第一个 client 的写前读取，后续其他的 client 的写前读取全部拒绝；而这里的 acceptor 其实是允许接收多个 prepare(写前读取) 的，想想看为什么？相同的地方是都需要对写前读取做记录 (minProposal = n)

paxos phase2

phase 2a: Accept

如果 proposer 收到了 a Quorum of Acceptors返回的 promise，那么说明他可以开始提案了。

如果 promise 里含有 (acceptedProposal, acceptedValue)，那么就放弃自己原本的提案，从返回的这些 promise 里挑出 acceptedProposal 最大的 acceptedValue 作为本次的提案 value。

（很重要，我自己初看的时候对这里放弃自己的提案很是想不通，还是那句话，把系统抽象到最简模型，提案的具体值不重要，重要的是达成一致）

这里的理解： accepted 并不表示某个提案 v 被确定了（be choosen)，之所以放弃自己的提案，其实是相当于继续了未完成的 paxos 过程。后面会讲到。

如果返回的 promise 里都没有 acceptedValue 值，那么才使用自己的提案 value （说明这是第一次提案）

然后 proposer 发起 “Accept” 请求 (n, v)，广播给大多数 acceptor。

phase 2b: Accepted

acceptor 收到 “Accept” 消息后(n, v)，取出里面的 proposal number n.

如果 n >= minProposal

acceptor 更新 acceptedProposal = minProposal = n
acceptor 更新 acceptedValue = v
acceptor 响应 “Accepted” 消息，消息里携带 minProposal

如果 n < minProposal:

拒绝这个 “Accept” 请求，同样也会回复一个响应，消息里携带 minProposal

注意，acceptor 是可以接受多次 acceptedValue 的，只要满足上面的条件。

当 proposer 收到了大多数的 acceptor 返回来的 “Accepted” 消息，则认为这个提案已经确定(be choosen)。

如果返回的消息有任何 minProposal >n，则重新以更大的 proposal number n执行 paxos.

接下来，就是 Leaner 发挥作用的时候了，Leaner 就会复制这个提案。实际的做法可能有多种，比如 Leaner 和 proposer 集成到一个角色，再通知其他的 Leaner 这个被 choosen 的提案v; 或者 Leaner 自己执行一遍 paxo是就能知道被 choosen 的提案。

讨论一下上面关于 n 与 minProposal 的大小关系：

n == minProposal
n < minProposal
n > minProposal

phase 2b: Accepted (n == minProposal)

n == minProposal: 这个很好理解，假设 paxos 系统只有一个 proposer，那么到了 accept 这里，必然 minProposal 就是 prepare 消息里的 n，此次 accept 消息自然也是 n

phase 2b: Accepted (n < minProposal)

n < minProposal: 也好理解，如果 proposerA 成功执行完 prepare 消息后，并确定自己可以开始写入之前，有 ProposerB 发起了 n 更大的 Prepare 消息，那么 acceptor 处的 minProposal 则会更新到这个值，当 ProposerA 的 Accept 过来时， n < minProposal

phase 2b: Accepted (n > minProposal)

n > minProposal: 假设 proposerA 已经成功发起 prepare 消息了，但是在发起 Accept 请求这段空隙时间，有 proposerB 又以更大的 proposal number n 成功发起了 prepare 消息，那么大多数的 Acceptor 的 minProposal 必然会更新到这个更大的 n，然后又抢在 proposerA 前发起了 Accept 消息，假设这个 AcceptB 消息被上一步没有收到 prepareB 的 acceptor 收到了，那么这些 acceptor 的 minProposal 依然记录的是 proposerA 的n，自然本次的值更大，n > minProposal

paxos 完整过程

或者类似 pbft 的流程图：

到这里，其实已经把 paxos 的核心算法讲完了。

来讨论一下涉及到的几个过程中可能出现的场景。

Basic Paxos without failures

Basic Paxos when an Acceptor fails

Basic Paxos when a Proposer fails

Basic Paxos when multiple Proposers conflict (livelock 活锁）

对比 deadlock，叫法很形象

是否还有很多疑问？

到了这里，你是否还有很多疑问？

我自己看到这的时候，我的疑问就是假设提案v 已经被确定了，即 be choosen, acceptor 保存的 acceptedValue 和 acceptedProposal 难道要一直保存吗？如果我打算发起第二个提案 v’, 按照上面的算法，promise 还是会把 (acceptedValue, acceptedProposal) 返回来，我始终无法发起第二个提案 v’.

更直白的话是，实际的系统肯定是一些连续的不同的提案，比如add, sub, jump, mov, cmp 等等，或者举一个更容易理解的数据库的例子，我们是持续的往数据库里写入数据的：

1	x = 1 ; y = 2; z= 100; x + 100; z - 10 ...

当我们成功发起 x=1 这个提案之后，按照 paxos 的流程发起第二个提案 y=2，还是会得到 x=1 这个提案的值。

basic/classical paxos 仅仅只是解决了一个提案（一次操作）的数据一致性问题，这也是纯理论的 basic/classical paxos 解决的核心问题。

你是否跟我一样？如果你能想到这里，说明你已经理解了上面的算法！（👏👏）

那么应用到实际中，怎么解决呢？

从理论到工程实践

根据上面的讨论我们可以知道，执行一个 paxos 流程可以解决一个提案的一致性问题，如果想要发起第二个提案，就势必要处理 (acceptedValue, acceptedProposal) 的问题。

在 Acceptor 上记录了 3 个值 (minProposal, acceptedValue, acceptedProposal)，当第一个提案（比如 x=1) 成功被 choosen 之后，Acceptor 上必须要有一个机制去清除掉这 3 个值，就像最初什么也没发生过时的状态，此时发起第二个提案（y=2）就和发起第一个提案(x=1) 一样了。

那么问题就来了，Acceptor 什么时候清除 (minProposal, acceptedValue, acceptedProposal) 呢？它必须知道提案已经被 choosen 了，并且要记录下这个已经被 choosen 的提案 (x=1);否则不能清除。

所以当一个提案(x=1) 被 choosen 之后，发起提案的 proposer 需要广播这个 choosen 结果给 Acceptor，直到大多数 Acceptor 返回成功。（先提一下：这里这个过程是不是和 raft 里 leader 日志复制的第二个过程类似，即 leader 本地 commit 之后，广播给所有 follower，告诉他们这个 command 已经处于 commited 状态了，然后 follower commited command）

Ok, 到这里 Acceptor 已经知道提案被 choosen(commited) 了，实际做法是记录下这个 choosen 的提案(x=1), 然后它可以放心大胆的清除(minProposal, acceptedValue, acceptedProposal) 这 3 个值了。那么当 proposer 发起第二个提案 y=1后，Acceptor 就能正常处理了。

但， Acceptor 怎么区分这两个不同的提案(x=1 和 y=1）呢？（靠 proposal number n ?)

我们还得给每一个不同的提案一个编号，或者说 index，即每一个不同的提案具有唯一的序号 index。所以一个 proposer 发起一个提案(prepare 消息）时需要包含 (n,v, index)，那么 Acceptor 这里呢，记录的 3 个值 (minProposal, acceptedValue, acceptedProposal) 和每一个 index 唯一绑定，或者说每一个不同的 index 有自己单独的 3 个值, 即（minProposal_index, acceptedValue_index, acceptedProposal_index)

是不是可以并发了呢？

multi-paxos

经过上面的讨论，我们看到如果给每一个不同的提案 x = 1 ; y = 2; z= 100; x + 100; z - 10 ... 做一个编号 index，我们就能够独立的执行 paxos 协议，实现我们实际工程中的连续写操作。

由纯理论到工程实践了！！！！

我们把上面每个运行独立 paxos 协议的实体称为一个 paxos instance，每个 paxos instance 独立互不影响。实际的工程中我们通常也会把 proposer/acceptor/leaner 3 个角色放到一个节点上，即一个 paxos 节点具有多重身份，每个身份可以作为一个线程运行，方便数据共享(比如 choosen value)。

性能问题的解决：

两阶段的 paxos 性能较差，如何减少 rpc 请求数？
livelock(活锁) 问题的解决？

据此 multi-paxos 提出一个 Leader 机制，避免 proposer 的冲突，这样一样，所有发起的提案全部由这个 Leader 来发起（至于如何选取 leader，问题不大，有很多做法，就如同 raft 的 leader 选举一样），同时也解决了 livelock 问题。

那么既然有了 leader，第一阶段的 prepare/promise 还有必要吗？第一阶段的 prepare/promise 到底是干嘛的，上面其实已经讲的很清楚了，就是确认哪一个 proposer 准备写，那么既然有了 leader，自然这个过程就可以省略了。

所以 multi-paxos 就只有 accept/accepted 过程了。

那么我们再重新思考一下：basic paxos 的两个阶段到底解决了什么问题？

第一阶段(prepare/promise): 解决了选择唯一 proposer 的问题
第二阶段(accept/accepted): 解决了提案被大多数 acceptor 接受的问题(accepted)，结果最初只有发起提案的 proposer 知道

通过 multi-paxos leader 机制，我们简化了第一阶段：

直接发起 accep/accepted: 最终大多数 acceptor 会接受这个提案，并且 leader 汇总结果后知道了大多数 acceptor 已经接受了这个提案，于是被 choosen
然后广播这个 choosen 结果给所有 acceptor，acceptor 再更新这个提案为 choosen（前面提到过）

这两个过程是不是和 raft 如出一辙，在 raft 里叫 log replication？😁😁 multi-paxos ≈ raft.

状态机

先看一个状态机：

multi-paxos 多提案过程

client 发起一个新的 command jmp，进入共识模块执行 multi-paxos 算法，会去找到最小的已经被 choosen(commited) 的 index，找到 index = 3（放弃自己的提案 jmp，执行 index=3 的 paxos)， and so on…

注意，实际可能同时并发发起 3 ~ 20 index 的提案。

multi-paxos 日志空洞

multi-paxos 是允许日志空洞的，也就是不连续的，每次 leader 并发发起 index 任意多个的不同提案，每个提案独立进行，所以会有成功和失败。

multi-paxos 幽灵复现日志问题

”幽灵复现日志“造成的原因就是”日志空洞“和 Leader 切换。

举个例子：

用户 A 发起一笔转账，超时没有等到转账结果
于是用户 A 再次查询一下是否转账成功，如果再次超时，用户 A 可能重新发起新的转账
但是最后结果是 A 成功执行了两次转账

multi-paxos Leader 切换

leader 选举的过程可以简单理解为某个节点 A 发起一轮 basic paxos（提案就是选 A 作为 leader)，最终提案被 choosen，广播给所有 acceptor，于是 leader 产生，并利用 lease 机制保持自己的 leader 身份，避免其他的 proposer 发起竞选 leader.

lease 机制：即租约机制，声明 leader 有效期，在有效期内，不允许发起竞选 leader；超过 lease，随意进入选举。

leader 切换必然伴随日志不一致的问题，即当前 leader 的日志和前任 leader 的日志不一致。就有可能造成 client 查询的时候返回 false。详细就不展开讲了。

multi-paxos 总结

选了一个 leader，避免 proposer 竞争(避免livelock)
同时可以并发发起 index = 1,2,3,4… 的提案，每个提案独立运行 paxos 算法
每个提案被 accepted 之后记录到本地(例如 mysql binlog)
每个提案被 choosen 之后更新这个 index 的状态为 choosen（比如设置这个 index 对应的 minProposal_index = ∞）
被 choosen(commited) 的提案放到 state machine 里执行
如果同时并发发起 index = 1…10 的共 10 个提案，中间有一些提案失败了(accepted but not choosen)，下一次会触发继续执行未完成的提案
multi-paxos 允许提案空洞(不连续） (相反 raft 就必须是连续的，不允许日志空洞）

上面每个 index 构成的本地提案记录，类似于一个列表，raft 里就 log entry，index 称为 logid.

raft

先看一个动画：

http://thesecretlivesofdata.com/raft/

raft 协议和 multi-paxos 很像。

先不讨论 leader 选举的问题，应该很简单。就讨论 log replication(日志复制）的问题。raft 过程如下：

定义了 3 种角色：

leader: 就是 leader
follower: 系统中其他节点，接收 leader 消息
candidate: follower 到 leader 转换的中间状态

过程如下：

client 发起一个 command (redirect to leader)
leader 广播这个日志到其余的 follower，称为 AppendEntries rpc (对比 multi-paxos 的 accept/accepted 过程）
leader 收到大多数 follower 成功响应后，执行 apply entry，即 commite log，然后广播给其他的 follower（对比 multi-paxos proposer 广播 choosen 的提案）
leader 回应 client

raft leader election

很简单，每个 follower 持有一个计数器，比如 [100, 300]ms，在这段时间内只要收不到 leader 的 hearbeat，就认为 leader 挂掉（实际有可能是他自己出了问题），然后由 follower 状态转为 candidate 状态，开始竞选 leader.

每个节点只能投一票，如果这个 candidate 收到大多数节点的 vote，则成为 leader，更新任期号 term number.

异常情况：raft 多个节点同时竞选

没关系，只要达不成 quorum vote，就继续下一轮投票；

为了避免出现无休止的重复这个过程（类似 livelock)，每次重新开始竞选时，随机延迟一段时间，避免出现两个 candidate 竞选。

异常情况：脑裂

脑裂就是网络分裂，形成两个或者多个独立的孤岛网络，假设分裂成 A 和 B 网络。

A 满足多数派条件
B 不满足多数派条件
A 和 B 可能会发生各自网络内部的 leader 重新选举，term 增 1

对于 B 来说，由于不满足多数派，故日志始终处于 uncommited 状态，所以是安全的；

对于 A 来说，正常进行 raft 共识；

一旦网络恢复：

A: 继续进行 raft
B: 退化为 follower，日志回滚

所以也是安全的。

raft log replication

基本和 multi-paxos 一样，但区别是 raft 要求日志是连续的，不允许出现日志空洞。即如果 logid = index 处于 commited 状态，那么 logid

paxos vs raft

先看一下概念上的一些区别：

raft leader 基本等同于 multi-paxos leader，但区别是 multi-paxos leader 不是强 leader 性质，实际上两个 leader 也可以（退化成 basic-paxos)
raft follower 相当于 multi-paxos acceptor
raft 两阶段的 rpc 分别是 appendEntries 和 applyEntries；分别对应 multi-paxos 中的 accept 和广播 choosen 的消息
raft 日志等同于 paxos 提案
raft log entry 等同于 multi-paxos proposal index.

再看一下其他方面：

multi-paxos 允许日志空洞； raft 不允许日志空洞
leader election: multi-paxos 弱 leader 性质；raft 强 leader，且要求竞选 leader 的 follower 必须有较大的 logindex

pbft

祭一张图吧（分享时间有限，先提一下 pbft，以后再分享。）

完

关于 paxos，欢迎和我一起交流。如果上面有讲的不对的地方，欢迎指正。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-12-05 于杭州
By 史矛革

fork会复制线程吗

2020-11-21T03:23:58.000Z

诡异的死锁

事情是这样的，观察到某台机器上出现了卡死的现象，即没有刷新日志，cpu 使用也较低，怀疑是不是出现了死锁。

由于程序采用的是 master + worker 的模式，首先 gdb attach 观察 master 情况，发现 master 执行正常，没有 lock wait 相关的堆栈；然后 gdb attach 观察 worker 情况，结果发现 worker 堆栈上有 lock wait 的情况，果然是出现了死锁，但 worker 上的其他线程并没有发现在等待锁的情况。

根据堆栈，找到 worker 的代码，重新梳理了一下代码，检查了 std::mutex 相关的函数调用，并没有出现嵌套调用的情况，也没有出现递归调用的情况，和上面发现 worker 其他线程没有等待锁的情况相吻合。

说明 worker 的死锁，并非由于 worker 内部的多线程造成的。那么就很诡异了，不是 worker 内部死锁，难道是多进程死锁？

排查验证

重新又检查了 worker 各个线程的堆栈情况，发现确实只有一个线程出现 lock wait 相关的堆栈；并且又检查了一下 master 进程内部的各个线程，堆栈也都正常。

那 worker 锁住的这个线程，到底是因为什么原因？梳理 worker 代码，找到 std::mutex 相关的函数调用，发现 master 调用的一个函数使用到了 std::mutex，但是该函数内部逻辑也较为简单，不会一直占用这把锁。

没有头绪，谷歌搜索了一些类似的问题，找到了一点端倪。主进程 fork 之后，仅会复制发起调用的线程，不会复制其他线程，如果某个线程占用了某个锁，但是到了子进程，该线程是蒸发掉的，子进程会拷贝这把锁，但是不知道谁能释放，最终死锁。

确实符合这个程序的行为，并且确实是多进程下子进程的死锁，而且找不到其他线程也在等待锁。

接下来，写一个 demo 验证一下，是否 fork 不会复制子线程，并且有可能造成死锁。

fork demo 验证

简单写一个 demo:

// file: fork_copy_thread.cc
// g++ fork_copy_thread.cc  -o fork_copy_thread -std=c++11 -lpthread -ggdb


#include 
#include 

#include 
#include 
#include 
#include 
#include 
#include 

class Event {
public:
    Event() = default;
    ~Event() = default;
public:
    std::string str_;
};


class TaskHandler {
public:
    TaskHandler() = default;
    ~TaskHandler() = default;

public:
    void start() {
        auto lam = [&]() -> void {
            {
                std::unique_lock<std::mutex> lock(ev_mutex_);
                this->ev_ = std::make_shared();
                this->ev_->str_ = "hello fork";
                // hold this lock for 10 seconds
                std::this_thread::sleep_for(std::chrono::seconds(10));
            }
            std::cout << "father thread done, exit" << std::endl;
        };

        std::thread th(lam);
        th.detach();
    }

    void print_str() {
        std::unique_lock<std::mutex> lock(ev_mutex_);
        if (!ev_) {
            std::cout << "event  not ready" << std::endl;
            return;
        }
        std::cout << "event:" << ev_->str_ << std::endl;
    }

private:
    std::shared_ptr ev_ { nullptr };
    std::mutex ev_mutex_;
};

std::shared_ptr tsk = nullptr;

int main() {
    tsk = std::make_shared();
    tsk->start();
    std::this_thread::sleep_for(std::chrono::seconds(1));

    // for child process
    pid_t pid = fork();
    switch (pid) {
        case -1:
            {
                return -1;
            }
        case 0:
            {
                std::cout << "this is child process" << std::endl;
                while (true) {
                    // will core here, because tsk->ev_ is created in father-thread, not copyed,
                    // so in child process, tsk->ev_ is nullptr
                    tsk->print_str();
                    std::this_thread::sleep_for(std::chrono::seconds(1));
                }
            }
        default:
            {
                // this is father
                break;
            }
    } // end switch

    while (true) {
        std::this_thread::sleep_for(std::chrono::seconds(1));
    }
    return 0;
}

上面的代码简单解释一下：

TaskHandler::start() 中会创建一个线程，线程会申请一把互斥锁，并且睡眠 10s，目的是为了在 fork 的时候依然占用这把互斥锁
TaskHandler::print_str() 会申请这把互斥锁，然后打印字符串
程序 main 开始，调用 start() 创建子线程
然后 fork() 子进程
子进程死循环执行 print_str() 函数打印字符串

使用编译命令：

1	$ g++ fork_copy_thread.cc -o fork_copy_thread -std=c++11 -lpthread -ggdb

运行后与预期不符，子进程并没有死循环打印字符串，死锁了。

然后使用 gdb attach 子进程：

(gdb) bt
#0  0x00007f4154e1a54d in __lll_lock_wait () from /lib64/libpthread.so.0
#1  0x00007f4154e15e9b in _L_lock_883 () from /lib64/libpthread.so.0
#2  0x00007f4154e15d68 in pthread_mutex_lock () from /lib64/libpthread.so.0
#3  0x000000000040128c in __gthread_mutex_lock (__mutex=0x1d2fc48) at /usr/include/c++/4.8.5/x86_64-unknown-linux-gnu/bits/gthr-default.h:748
#4  0x0000000000401730 in std::mutex::lock (this=0x1d2fc48) at /usr/include/c++/4.8.5/mutex:134
#5  0x0000000000401f99 in std::unique_lock::lock (this=0x7fff168c43a0) at /usr/include/c++/4.8.5/mutex:511
#6  0x0000000000401b13 in std::unique_lock::unique_lock (this=0x7fff168c43a0, __m=...) at /usr/include/c++/4.8.5/mutex:443
#7  0x0000000000401988 in TaskHandler::print_str (this=0x1d2fc38) at fork_copy_thread.cc:43
#8  0x00000000004013ff in main () at fork_copy_thread.cc:76
(gdb)

果然可以看到子进程卡在了 print_str() 函数上。

上面的代码，父进程创建线程后，占用了锁，此时 fork 了子进程，子进程拷贝了父进程空间的内存，包括锁，但是没有复制子线程，造成子进程无法获取锁，最终死锁。

fork copy thread?

上面已经验证了死锁的产生原因是由于 fork 时并没有把父进程里的线程复制到子进程，导致子进程无法获取锁。那么简单修改一下上面的代码，来验证一下子进程确实是没有复制父进程的子线程。

// file: fork_copy_thread.cc
// g++ fork_copy_thread.cc  -o fork_copy_thread -std=c++11 -lpthread -ggdb


#include 
#include 

#include 
#include 
#include 
#include 
#include 
#include 

class Event {
public:
    Event() = default;
    ~Event() = default;
public:
    std::string str_;
};


class TaskHandler {
public:
    TaskHandler() = default;
    ~TaskHandler() = default;

public:
    void start() {
        auto lam = [&]() -> void {
            {
                std::unique_lock<std::mutex> lock(ev_mutex_);
                this->ev_ = std::make_shared();
                this->ev_->str_ = "hello fork";
                // hold this lock for 10 seconds
                //std::this_thread::sleep_for(std::chrono::seconds(10));
            }
            while (true) {
                std::cout << "this threadid:" << std::this_thread::get_id() << " run" << std::endl;
                std::this_thread::sleep_for(std::chrono::seconds(1));
            }
        };

        std::thread th(lam);
        th.detach();
    }

    void print_str() {
        std::unique_lock<std::mutex> lock(ev_mutex_);
        if (!ev_) {
            std::cout << "event  not ready" << std::endl;
            return;
        }

        std::cout << "event:" << ev_->str_ << std::endl;

    }

private:
    std::shared_ptr ev_ { nullptr };
    std::mutex ev_mutex_;
};

std::shared_ptr tsk = nullptr;

int main() {
    tsk = std::make_shared();
    tsk->start();
    std::this_thread::sleep_for(std::chrono::seconds(1));

    // for child process
    pid_t pid = fork();
    switch (pid) {
        case -1:
            {
                return -1;
            }
        case 0:
            {
                std::cout << "this is child process" << std::endl;
                while (true) {
                    // will core here, because tsk->ev_ is created in father-thread, not copyed,
                    // so in child process, tsk->ev_ is nullptr
                    //tsk->print_str();
                    std::this_thread::sleep_for(std::chrono::seconds(1));
                }
            }
        default:
            {
                // this is father
                break;
            }
    } // end switch

    while (true) {
        std::this_thread::sleep_for(std::chrono::seconds(1));
    }
    return 0;
}

简单解释一下修改了啥：

父进程启动一个线程，循环打印字符串
父进程 fork，子进程保持睡眠
验证子进程是否有线程打印字符串(如果复制了的话，理应会打印）

执行结果：

$ ./fork_copy_thread
this threadid:139674369169152 run
this threadid:139674369169152 run
this is child process
this threadid:139674369169152 run
this threadid:139674369169152 run
this threadid:139674369169152 run

可以看到只有一个线程在打印，也就是父进程创建的那个线程；fork 之后父进程的线程在子进程蒸发了。

多线程程序使用 fork 一定要谨慎，再谨慎，并且也不推荐这样的做法。

fork 到底复制了什么

https://linux.die.net/man/3/fork

1
2
3

#include 

pid_t fork(void);

Copy On Write

Copy On Write(写时复制）技术大大提高了 fork 的性能。fork 之后，内核会把父进程中的所有内存页都设置为 read-only，然后子进程的地址空间指向父进程。如果父进程和子进程都没有涉及到内存的写操作，那么父子进程保持这样的状态，也就是子进程并不会复制父进程的内存空间；如果父进程或者子进程产生了写操作，那么由于内存页被设置为 read-only，所以会触发页异常中断，然后中断程序会把该内存页复制一份，至此父子进程就拥有不同的内存页；而其他没有操作的内存页依然共享。

上面这段话不太好理解，涉及到的东西其实比较深也比较多。我们把它拆开来说。

虚拟内存空间，进程是看不见物理内存地址的，进程的内存空间称为虚拟内存，默认从 0 到 max，虚拟内存空间也就是逻辑内存地址，进程操作的都是逻辑内存地址。

虚拟内存地址到真实的物理内存地址的转换或者映射称为地址重定向，有专门的中断程序来负责处理，作为进程本身不需要关心。

物理内存的单位是页，也就是内核使用页为单位来管理物理内存，数据结构上页其实是一个 struct，大小好像是 4KB。虚拟内存地址映射到物理内存以页的方式进行，并且内核管理一个页映射表。

malloc 分配内存，其实操作的是虚拟内存，也即使用 malloc 分配了一段内存后，在未赋值之前，其实是没有物理内存占用的，当真正向 malloc 分配的内存写数据的时候，内核才会分配真实的物理内存页，并让这段虚拟内存指向实际的物理内存页。并且进程管理一个页表。

进程的虚拟内存空间，由地地址到高地址空间大致分为代码段、数据段、BSS 段、堆、栈，详情如下：

fork 之后，子进程复制了父进程的虚拟内存空间，即复制了代码段、堆栈等，所以变量的地址也是一样的。并且父子进程各自有一份页映射表，它们都指向父进程的物理内存地址。

当父子进程只读时，不会发生真实的物理内存拷贝；但是当父子进程写入时，由于物理页 read-only，会触发页异常中断，中断程序会把该页面复制一份，其他的页保持不动。至此父进程和子进程的页映射表就出现了一点不一致了，但其他部分还是一致的。

简单总结下 fork

要理解 fork 的原理，Copy On Write 的原理，重点是理解虚拟内存和物理内存的关系。

fork 之后，子进程会复制父进程的虚拟内存空间，也就是代码段、数据段、堆栈等，虚拟内存空间里表达的就是程序里各个变量的地址，所以子进程里各个变量的地址和父进程里各个变量的地址是一样的。

父子进程只读时，不会发生真实的物理内存拷贝，他们的页映射表内容一致，即同样的虚拟内存地址指向同样的物理内存地址；但当有一方写入数据时，内核会复制要写入的页，此时修改数据的一方的页映射表就发生了变化，即同样的虚拟内存地址指向了不同的物理内存地址，但其他部分还是一样的；

另外，fork 仅会将发起调用的线程复制到子进程中，所以子进程中的线程 ID 与主进程线程 ID 有一致的情况。其他线程不会被复制。

The End

关于 fork 的细节，还有很多值得深入研究的东西。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-11-21 于杭州
By 史矛革

TCP全连接和半连接的问题探讨

2020-11-14T03:23:58.000Z

从何说起

说起 tcp 的连接过程，想必 “3次握手4次挥手”是大家广为熟知的知识，那么关于更细节更底层的连接过程也许就很少人能讲清楚了。

所以本文会先简单回顾一下 tcp 的 3次握手过程，然后重点聊一下 tcp accept 的过程，涉及到 tcp 半连接队列、全连接队列等的内容。

回顾一下

3 次握手

要了解 3 次握手的过程，可能需要先熟悉一下 tcp 协议的格式：

tcp segment 的头部有两个 2字节的字段 source port 和 dest port，分别表示本机端口以及目标端口，在 tcp 传输层是没有 IP 的概念的，那是 IP 层的概念，IP 层协议会在 IP 协议的头部加上 src ip 和 dest ip；
4 个字节的 seq，表示序列号，tcp 是可靠连接，不会乱序；
4 个字节的 ack，表示确认号，表示对接收到的上一个报文的确认，值为 seq + 1;
几个标志位：ACK,RST,SYN,FIN 这些是我们常用的，比较熟悉的。其中 ACK 简写为 “.”; RST 简写为 “R”; SYN 简写为 “S”; FIN 简写为 “F”;

注意： ack 和 ACK 是不一样的意思，一个是确认号，一个是标志位

了解了 tcp 协议的头部格式，那么再来讲一下 3 次握手的过程：

客户端对服务端发起建立连接的请求，发送一个 SYN 包（也就是 SYN 标志位设置为 1），同时随机生成一个 seq 值 x，然后客户端就处于 SYN_SENT 状态；
服务端收到客户端的连接请求，回复一个 SYN+ACK包（也就是设置 SYN 和 ACK 标志位为 1），同时随机生成一个 seq 值 y，然后确认号 ack = x + 1，也就是 client 的 seq +1，服务端进入 SYN_RECV 阶段；
客户端收到服务端的 SYN+ACK 包，会回复一个 ACK 包（也就是设置 ACK 标志位为 1），设置 seq = x + 1，ack 等于服务端的 seq +1，也就是 ack = y+1，然后连接建立成功；

tcpdump 抓包

开一个终端执行以下命令作为服务端：

1 2	# 服务端 $ nc -l 10000

然后打开新的终端用 tcpdump 抓包：

# -i 表示监听所有网卡；

# -t 表示不打印 timestamp;

# -S 表示打印绝对的 seq 而不是相对的 seq number;

# port 10000 表示对 10000 端口进行抓包

$ tcpdump  -i any -t -S port 10000

然后再打开一个终端模拟客户端:

1	$ nc 127.0.0.1 10000

观察 tcpdump 的输出如下：

1
2
3

IP Jia.22921 > 192.168.1.7.ndmp: Flags [S], seq 614247470, win 29200, options [mss 1460,sackOK,TS val 159627770 ecr 0], length 0
IP 192.168.1.7.ndmp > Jia.22921: Flags [S.], seq 1720434034, ack 614247471, win 65160, options [mss 1460,sackOK,TS val 3002840224 ecr 159627770], length 0
IP Jia.22921 > 192.168.1.7.ndmp: Flags [.], ack 1720434035, win 29200, options [nop,nop,TS val 159627770 ecr 3002840224], length 0

分析以下上面的结果可以看到：

第一个包 Flags [S] 表示 SYN 包，seq 为随机值 614247470；
然后服务端回复了一个 Falgs [S.]，也就是 SYN+ACK 包，同时设置 seq 为随机值 1720434034，设置 ack 为 614247470 + 1 = 614247471；
客户端收到之后，回复一个 Flags [.]，也就是 ACK 包，同时设置 ack 为 1720434034 + 1 = 1720434035；

假如3次握手丢包了？

上面是正常情况的握手情况，假如握手过程中的任何一个包出现丢包呢会怎么样？比如受到了攻击，比如服务端宕机，服务端超时，客户端掉线，网络波动等。

所以接下来我们分析下 3 次握手过程中涉及到的连接队列。

tcp 内核参数

backlog 参数

https://linux.die.net/man/3/listen
The backlog argument provides a hint to the implementation which the implementation shall use to limit the number of outstanding connections in the socket’s listen queue. Implementations may impose a limit on backlog and silently reduce the specified value. Normally, a larger backlog argument value shall result in a larger or equal length of the listen queue. Implementations shall support values of backlog up to SOMAXCONN, defined in .

1	int listen(int socket, int backlog);

backlog 参数是用来限制 tcp listen queue 的大小的，真实的 listen queue 大小其实也是跟内核参数 somaxconn 有关系，somaxconn 是内核用来限制同一个端口上的连接队列长度。

全连接队列

完成 3 次握手的连接，也就是服务端收到了客户端发送的最后一个 ACK 报文后，这个连接会被放到这个端口的全连接队列里，然后等待应用程序来处理，对于 epoll 来说就是内核触发 EPOLLIN 事件，然后应用层使用 epoll_wait 来处理 accept 事件，为连接分配创建 socket 结构，分配 file descriptor 等；

那么假如应用层没有来处理这些就绪的连接呢？那么这个全连接队列有可能就满了，导致后续的连接被丢弃，发生全连接队列溢出，丢弃这个连接，对客户端来说就无法成功建立连接。

所以为了性能的考虑，我们有必要尽可能的把这个队列的大小调大一点。

查看全连接队列大小

可以通过一下命令来查看当前端口的全连接队列大小：

1
2
3

$ ss -antl
State   Recv-Q   Send-Q     Local Address:Port      Peer Address:Port  Process            
LISTEN  0        5           192.168.1.7:10000          0.0.0.0:*

在 ss 输出中：

LISTEN 状态：Recv-Q 表示当前 listen backlog 队列中的连接数目（等待用户调用 accept() 获取的、已完成 3 次握手的 socket 连接数量），而 Send-Q 表示了 listen socket 最大能容纳的 backlog。

非 LISTEN 状态：Recv-Q 表示了 receive queue 中存在的字节数目；Send-Q 表示 send queue 中存在的字节数；

压测观察全连接队列溢出

接下来我们实际测试一下，使用项目：mux。

我们先修改一下 backlog 参数为 5：

1
2
3

# 把backlog 调小一点

listen(listenfd, 5);

根据编译文档，编译后得到两个二进制：

1 2	$ ls bench_server bench_client_accept

bench_server 用来作为服务端，底层使用 epoll 实现
bench_client_accept 作为压测客户端，并发创建大量连接，这里只会与服务端建立连接，不会发送其他任何消息（当然可以用其他的压测工具）

选择两台机器进行测试，192.168.1.7 作为服务端， 192.168.1.4 作为压测客户端，开始压测前，可能需要设置一下：

1	$ ulimit -n 65535

1) 启动服务端

1
2
3

# 192.168.1.7 作为服务端，监听 10000 端口

$ ./bench_server 192.168.1.7 10000

注意到上图执行 ss -antl 看到 10000 端口的 listen queue size 为 5，这里是故意调小一点，为了验证全连接队列溢出的场景。

2) 先观察一下服务端全连接队列的情况以及溢出的情况

$ ss -natl |grep 10000
LISTEN  0        5            192.168.1.7:10000          0.0.0.0:*              
$ netstat  -s |grep -i overflowed
    2283 times the listen queue of a socket overflowed

上述表明 10000 端口的 listen queue size 为 5，并且全连接队列中没有等待应用层处理的连接；

netstat -s |grep -i overflowed 表示全连接队列溢出的情况，2683 是一个累加值。

2) 启动 tcpdump 对客户端行为抓包，分析 3次握手连接情况

1
2
3

# 运行在 client: 192.168.1.4 上

$ tcpdump  -i any port 10000 and tcp -nn > tcpdump.log

3）启动压测客户端

# 192.168.1.4 作为压测客户端
# 30000 表示连接数
# 100 表示 100 个并发线程
# 1 表示执行 1 轮

$ ./bench_client_accept  192.168.1.7 10000 30000 100 1

压测过程中，可以不断执行命令观察服务端全连接队列溢出的情况，压测完毕之后再观察一下全连接队列溢出的情况：

$ ss -natl |grep 10000
LISTEN  0        5            192.168.1.7:10000          0.0.0.0:*              
$ ss -natl |grep 10000
LISTEN  5        5            192.168.1.7:10000          0.0.0.0:*              
$ ss -natl |grep 10000
LISTEN  0        5            192.168.1.7:10000          0.0.0.0:*                          
$ ss -natl |grep 10000
LISTEN  1        5            192.168.1.7:10000          0.0.0.0:*              
$ ss -natl |grep 10000
LISTEN  0        5            192.168.1.7:10000          0.0.0.0:*              
$ ss -natl |grep 10000
LISTEN  0        5            192.168.1.7:10000          0.0.0.0:*              
$ ss -natl |grep 10000
LISTEN  1        5            192.168.1.7:10000          0.0.0.0:*              
$ ss -natl |grep 10000
LISTEN  0        5            192.168.1.7:10000          0.0.0.0:*              
$ netstat  -s |grep -i overflowed
    2930 times the listen queue of a socket overflowed

可以看到，压测过程中的 Recv-Q 出现了5，1 的值，表示全连接队列中等待被处理的连接，而且有 2930 - 2283 = 647 次连接由于全连接队列溢出而被丢弃。

我们再来观察一下 bench_client_accept 的日志情况：

$ grep -a 'Start OK' log/bench_client_accept.log  |wc -l
29736
$ grep -a 'start failed' log/bench_client_accept.log  |wc -l
264

可以看到最终有 264 个 client 由于服务端丢弃建立连接时 3 次握手的包而造成连接失败。

如果你细心的话会发现，全连接队列溢出发生了 647 次，但是最终只有 264 个 client 建立失败，why?其实原因很简单，因为客户端有重试机制，具体参数是 net.ipv4.tcp_syn_retries，这个暂且不详说。

那再来看一下 tcpdump 抓包的结果，这里要用到一个 python 脚本 tcpdump_analyze.py 来处理一下 tcpdump.log 这个日志：

import os

# tcpdump  -i any port 10000 and tcp -nn > tcpdump.log

server_ip_port = "192.168.1.7.10000"
client_map = {}

with open('./tcpdump.log', 'r') as fin:
    for line in fin:
        sp = line.split()
        if len(sp) < 3:
            print("invalid line:{0}".format(line))
            continue

        client_ip_port = sp[2]
        if client_ip_port == server_ip_port:
            client_ip_port = sp[4].split(':')[0]

        if client_ip_port not in client_map:
            client_map[client_ip_port] = [line]
        else:
            client_map[client_ip_port].append(line)

connect_fail_client = []
connect_succ_client = []
connect_succ_client_normal = []
connect_succ_client_try   = []

total_size = len(client_map)

for k,v in client_map.items():
    print("{0}$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$begin".format(k))
    for ll in v:
        print(ll)
    connect_fail = True
    for i in v:
        # ack 1 is the last packet of tcp handshake from server
        if i.find('ack 1,') != -1:
            connect_fail = False
            break
    if connect_fail:
        connect_fail_client.append(v)
        print("fail");
    else:
        connect_succ_client.append(v)
        if len(v) == 3:
            connect_succ_client_normal.append(v)
            print("succ no retry");
        else:
            connect_succ_client_try.append(v)
            print("succ with retry")
    print("{0}$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$end\n\n".format(k))

print("\ntotal client:{0} connect success client size:{1}".format(total_size, len(connect_succ_client)))
print("\ntotal client:{0} connect success client normal handshake size:{1}".format(total_size, len(connect_succ_client_normal)))
print("\ntotal client:{0} connect success client after retry handshake size:{1}".format(total_size, len(connect_succ_client_try)))
print("\ntotal client:{0} connect fail client size:{1}".format(total_size, len(connect_fail_client)))

运行后得到结果：

$ python tcpdump_analyze.py

(省略部分输出）

192.168.1.4.20409$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$begin
15:43:12.030247 IP 192.168.1.4.20409 > 192.168.1.7.10000: Flags [S], seq 2040611302, win 29200, options [mss 1460,sackOK,TS val 166083457 ecr 0], length 0

15:43:13.033419 IP 192.168.1.4.20409 > 192.168.1.7.10000: Flags [S], seq 2040611302, win 29200, options [mss 1460,sackOK,TS val 166084460 ecr 0], length 0

15:43:13.033661 IP 192.168.1.7.10000 > 192.168.1.4.20409: Flags [S.], seq 3015149333, ack 2040611303, win 65160, options [mss 1460,sackOK,TS val 3009296915 ecr 166084460], length 0

15:43:13.033667 IP 192.168.1.4.20409 > 192.168.1.7.10000: Flags [.], ack 1, win 29200, options [nop,nop,TS val 166084460 ecr 3009296915], length 0

succ with retry
192.168.1.4.20409$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$end


192.168.1.4.54379$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$begin
15:43:21.047376 IP 192.168.1.4.54379 > 192.168.1.7.10000: Flags [S], seq 2685382859, win 29200, options [mss 1460,sackOK,TS val 166092474 ecr 0], length 0

15:43:21.047514 IP 192.168.1.7.10000 > 192.168.1.4.54379: Flags [S.], seq 1736229374, ack 2685382860, win 65160, options [mss 1460,sackOK,TS val 3009304929 ecr 166092474], length 0

15:43:21.047528 IP 192.168.1.4.54379 > 192.168.1.7.10000: Flags [.], ack 1, win 29200, options [nop,nop,TS val 166092474 ecr 3009304929], length 0

succ no retry
192.168.1.4.54379$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$end

total client:30000 connect success client size:29736

total client:30000 connect success client normal handshake size:29195

total client:30000 connect success client after retry handshake size:541

total client:30000 connect fail client size:264

上面的意思是总共有 29736 个 client 成功建立连接，而有 264 个 client 建立失败；连接成功的 client 里有 29195 个是通过了正常的 3 次握手成功建立，没有发生重试；而有 541 个 client 是发生了重试的情况下才建立连接成功。

可以看到上面的输出，发生重试 “succ with retry” 的部分，client 发送一个 SYN 之后，由于 server 全连接队列溢出导致连接被丢弃，client 超时后重新发送 SYN 包，然后建立连接；

而上面连接失败的客户端，错误原因都是: errno = 110，也就是 “Connection timed out”。

Ok，到现在应该明白全连接队列大小对于 tcp 3 次握手的影响，如果全连接队列过小，一旦发生溢出，就会影响后续的连接。

调整内核参数，避免全连接队列溢出

那我们修改一下 backlog 的大小，改大一些：

1	listen(listenfd, 100000);

然后我们修改内核参数：

1 2	net.core.netdev_max_backlog = 400000 net.core.somaxconn = 100000

可以通过打开 /etc/sysctl.conf 直接修改，或是通过命令修改：

1	$ sysctl -w net.core.netdev_max_backlog=400000

重新编译运行，执行上述的压测，观察结果。

压测前：

$ ss -natl |grep 10000
LISTEN  0        100000       192.168.1.7:10000          0.0.0.0:*              
$ netstat  -s |grep -i overflowed
    3118 times the listen queue of a socket overflowed

压测后：

$ netstat  -s |grep -i overflowed
    3118 times the listen queue of a socket overflowed
    
$ python tcpdump_analyze.py
(省略部分输出）
total client:30000 connect success client size:30000

total client:30000 connect success client normal handshake size:30000

total client:30000 connect success client after retry handshake size:0

total client:30000 connect fail client size:0

可以看到，当我们把内核参数以及 backlog 调大之后，30000 个 client 全部建立连接成功且没有发生重试，服务端的 listen queue 没有发生溢出。

半连接队列

全连接队列存放的是已经完成 3次握手，等待应用层调用 accept() 处理这些连接；其实还有一个半连接队列，当服务端收到客户端的 SYN 包后，并且回复 SYN+ACK包后，服务端进入 SYN_RECV 状态，此时这种连接称为半连接，会被存放到半连接队列，当完成 3 次握手之后，tcp 会把这个连接从半连接队列中移到全连接队列，然后等待应用层处理。

那么怎么查看半连接队列的大小呢？没有直接的 linux command 来查询半连接队列的长度，但是根据上面的定义，服务端处于 SYN_RECV 状态的数量就表示半连接的数量。所以采用一定的方式增大半连接的数量，看服务端 SYN_RECV 的数量最大值有多少，那就是半连接队列的大小。

那问题就来了，如何增大半连接的数量呢？这里采用到的就是 SYN-FLOOD 攻击，通过发送大量的 SYN 包而不进行回应，造成服务端创建了大量的半连接，但是这些半连接不会被确认，最终把 tcp 半连接队列占满造成溢出，并影响正常的连接。

半连接队列溢出

采用的工具是: hping3，一款很强大的工具。

启动服务端：

1
2
3

# 192.168.1.7 作为服务端，监听 10000 端口

$ ./bench_server 192.168.1.7 10000

开始攻击：

1	$ hping3 -S --flood --rand-source -p 10000 192.168.1.7

观察半连接数量：

$ netstat -ant |grep SYN
(省略)
tcp        0      0 192.168.1.7:10000       152.66.128.1:48581      SYN_RECV   
tcp        0      0 192.168.1.7:10000       208.220.119.30:57972    SYN_RECV   
tcp        0      0 192.168.1.7:10000       3.104.166.109:25975     SYN_RECV 

$ netstat -ant |grep SYN |wc -l
256

持续观察，可以看到处于 SYN_RECV 状态的连接基本保持在 256，说明半连接队列的大小是 256。而此时，10000 端口已经比较难连接上了。

查看一下半连接队列的丢弃情况：

1 2	$ netstat -s \|grep dropped 26055883 SYNs to LISTEN sockets dropped

注意： 26055883 是一个累加值，可以持续观察

那怎么增大半连接队列大小呢？

增大半连接队列，防止溢出

直接修改内核参数：

1
2
3

# 直接修改文件 /etc/sysctl.conf

net.ipv4.tcp_max_syn_backlog = 100000

或者使用命令：

1	$ sysctl -w net.ipv4.tcp_max_syn_backlog=100000

据说半连接队列并非只由这个参数决定，不同的系统的计算方式不一致，还会和全连接队列大小有关

当然这个应对 SYN-Flood 攻击只是轻微降低影响而已。

还可以设置 net.ipv4.tcp_syncookies = 0 来一定程度防范 SYN 攻击。

syncookies 的原理就是当服务端收到客户端 SYN 包后，不会放到半连接队列里，而是通过 {src_ip, src_port, timestamp} 等计算一个 cookie（也就是一个哈希值），通过 SYN+ACK包返回给客户端，客户端返回一个 ACK 包，携带上这个 cookie，服务端通过校验可以直接把这个连接放入全连接队列。整个过程不需要半连接队列的参与。

SYN 重试

上面压测验证全连接队列溢出的场景下，通过 tcpdump 抓包分析到有些连接是经过了重试才建立成功的，具体表现在：

客户端发送 SYN 包请求建立连接，但此时由于服务端全连接队列溢出或者半连接队列溢出，该 SYN 包就会被丢弃，当客户端迟迟无法收到服务端的 SYN+ACK 包后，客户端超时重发 SYN 包，如果再次超时，那么根据内核设置的 SYN 超时重试次数决定是否继续重发 SYN 包。

假设重试次数为 6 次：

第一次发送 SYN 后等待 1 s （2^0);
第二次发送 SYN 后等待 2 s (2^1);
第三次发送 SYN 后等待 4 s (2^1);
…

所以当我们发现服务端出现了问题的时候，可以适当提高 SYN 重试的次数；当然过大的值也会影响问题的快速发现；

可以通过设置：

1	$ sysctl -w net.ipv4.tcp_syn_retries=2

The End

Ok, 到这里基本上把 tcp 3 次握手比较细节的地方讲到了。 tcp 真是一个巨复杂的协议，还有不少值得深挖的东西！

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-11-14 于杭州
By 史矛革

博客大事记之迁移博客到香港主机

2020-11-10T03:23:58.000Z

前言

之前其实已经写过一篇博文：迁移博客到香港虚拟空间，那为什么又要写这篇博客呢？

上次其实是把我的博客迁移到一个香港的虚拟空间里，但是不到半年的时间已经出现过 4 次宕机事件，每次持续时间 4~5 小时，阿里云和 UpTimeRobot 的监控报警报了一大堆，邮箱都快塞满了。想着宕机就宕机吧，至少还能恢复，还能凑合用，结果呢，就在前几天当时购买虚拟空间的官网都 GG 了，管理员跑路了。。。

可能他没挣到钱吧，买一台服务器打算开很多共享的虚拟空间来卖，可能也只有我买了一个，因为我后来看了下我的博客同 IP 的网站就两个，好嘛，结果就跑路了。。。这里就不点名是哪一家了，八字开头的一个云。

好吧，言归正传，正好双 11，那就干脆直接买服务器吧，所以就购买了腾讯的一台轻量级云服务器，峰值 30Mbps，月流量 1024G，能满足我的需求，况且有了服务器，能做的事情就很多了。比如我还有其他的博客也可以解析到这里，比如可以定制化一些动态博客，比如可以使用自动化发布等。

那本文大致就记录下迁移的一些过程以及踩坑优化等：

服务器购买以及初始化
安装部署 nginx
部署博客源码
解析域名
设置 https 证书
绑定多个域名
使用 github actions 自动化部署博客（踩坑）
https 性能优化

服务器购买及初始化

双 11 活动，购买了一台轻量级的腾讯云服务器。然后就是初始化服务器，登录服务器，设置 ssh key 登录等。

注意这里一定要设置 ssh key 登录，因为后面用的到。

安装部署 nginx

安装

1	$ yum install nginx -y

启动

1	$ systemctl start nginx

然后浏览器访问：

1	$ curl http://your_public_ip

如果一切正常，说明 nginx 启动正常。接下来把 nginx 添加到系统启动项随开机启动：

1	$ systemctl enable nginx.service

部署博客源码

博客采用的是 hexo 生成的静态博客，所以只需要把博客仓库克隆下来就行：

安装 git

1	$ yum install git -y

克隆博客网站源码到某个目录：

1	$ git clone https://github.com/smaugx/smaugx.github.io.git /root/

设置 nginx 配置文件中 80 端口的 root 为博客源码的目录：

1 2	# nginx.conf root /usr/share/nginx/html/smaugx.github.io;

重启 nginx:

1	$ systemctl restart nginx

验证博客是否正常：

1	$ curl http://your_public_ip

正常能看到博客的主页了。

解析域名

接下来是把域名 rebootcat.com 解析到这台机器上，如下：

主机|类型|线路|记录值|MX优先级|TTL|备注|状态
@NS默认f1g1ns1.dnspod.net.086400正常
@NS默认f1g1ns2.dnspod.net.086400正常
@A默认101.33.123.30    0600正常
@TXT默认google-site-xxx86400正常
wwwA默认101.33.123.30      0600正常
@TXT默认mP8ROM8AEYs9Zxxxx0600正常

解析生效之后，验证是否成功：

1	$ curl http://rebootcat.com

设置 https 证书

全程参考这篇博文：

Linux CentOS 7 下 Nginx 安装使用 Let’ s Encrypt 证书的完整过程

这篇文章已经写的很清楚了，照着操作就行。

设置完成应该就能使用 https 访问了：

1	$ curl https://rebootcat.com

绑定多个域名

我还把 loveyxq.online 也解析到了这台机器上，这是我另外一个博客，给我女朋友用的一个。

nginx 的配置见后文。

使用 github actions 自动化部署博客（踩坑）

经过了上面的步骤，博客已经算是迁移完成了，不过每次更新博客能否直接部署道这台机器上呢？

答案是能的，而且方法很多种。我采用的是 github 自家的持续部署工具 Github Actions.

添加 github 仓库配置

如上图所示，分别在 Secrets 项添加 3 个变量：

BLOG_DEPLOY_PRI_KEY : ssh 私钥
BLOG_HOSTNAME : rebootcat.com
BLOG_USER : user

注意，优于 github action 会使用上面的 sshkey 登录并推送博客，所以为了安全，建议单独生成用户，并设置单独的目录以及权限，只允许访问 nginx root path.

编写工作流文件

在博客网站源码仓库创建文件：.github/workflows/deploy.yml，内容如下：

name: Deploy site files

on:
  push:
    branches:
      - master  # 只在master上push触发部署
    paths-ignore:   # 下列文件的变更不触发部署，可以自行添加
      - LICENSE

jobs:
  deploy:

    runs-on: ubuntu-latest   # 使用ubuntu系统镜像运行自动化脚本

    steps:  # 自动化步骤
    - uses: actions/checkout@v2   # 第一步，下载代码仓库

    - name: Deploy to Server  # 第二步，rsync推文件
      uses: AEnterprise/rsync-deploy@v1.0  # 使用别人包装好的步骤镜像
      env:
        DEPLOY_KEY: ${{ secrets.BLOG_DEPLOY_PRI_KEY }}   # 引用配置，SSH私钥
        ARGS: -avz --delete --exclude='*.pyc'   # rsync参数，排除.pyc文件
        SERVER_PORT: '22'  # SSH端口
        FOLDER: ./  # 要推送的文件夹，路径相对于代码仓库的根目录
        SERVER_IP: ${{ secrets.BLOG_HOSTNAME }}  # 引用配置，服务器的host名（IP或者域名domain.com）
        USERNAME: ${{ secrets.BLOG_USER }}  # 引用配置，服务器登录名
        SERVER_DESTINATION: /usr/share/nginx/html/smaugx.github.io/   # 部署到目标文件夹
    - name: Restart server   # 第三步，重启服务
      uses: appleboy/ssh-action@master
      with:
        host: ${{ secrets.BLOG_HOSTNAME }}  # 下面三个配置与上一步类似
        username: ${{ secrets.BLOG_USER }}
        key: ${{ secrets.BLOG_DEPLOY_PRI_KEY }}
        # 重启的脚本，根据自身情况做相应改动，一般要做的是migrate数据库以及重启服务器
        script: |
          echo "update rebootcat.com blog" >> /tmp/github/blog.log

上述文件记得 push 到远端仓库。然后你可以随便修改一下博客源码并且 push 到远端，正常的话应该能看到如下的输出：

hexo deploy 踩坑

重点来了，上面两部其实是经过了 hexo deploy 的踩坑的。为啥？

由于 hexo generate 默认会忽略隐藏文件，所以生成的网站源码就会忽略 .github/workflows/deploy.yml，所以要设置一下博客根目录的 _config.yml:


# Include / Exclude file(s)
## include:/exclude: options only apply to the 'source/' folder
include:
  - ".github/*"
  - ".github/**/*"
exclude:
ignore:

很重要！！！

OK，现在你可以放心大胆的使用 hexo generate 来生成博客源码了，但是当你使用 hexo deploy 的时候问题又来了， hexo deploy 默认也是忽略隐藏文件的，而且好像上面那个配置对 hexo deploy 无效。

搜索了很多，没有找到针对 hexo deploy 如何避免忽略隐藏文件的解决方案，于是探索了一下：

$ hexo deploy
INFO  Deploying: git
INFO  Clearing .deploy_git folder...
INFO  Copying files from public folder...
INFO  Copying files from extend dirs...
On branch master
nothing to commit, working tree clean
...

可以看到，上面执行 hexo deploy 命令后的输出有一个 “.deploy_git folder”，看了一下真有这个隐藏目录，想必 hexo deploy 是把 public 目录与较旧的（上一次发布的）目录 .deploy_git 做比较，然后增量上传文件。

所以我直接把 .github/workflows/deploy.yml 拷贝到了 .deploy_git 目录，然后执行 hexo deploy 成功。

哈哈哈！！！

所以记住，如果后期修改了这个 deploy.yml ，需要手动拷贝一下，但是基本上不会再动这个文件了。

到这里，基本上就解决了利用github actions 自动化部署博客的问题了。

实测 push 仓库后到服务器上的网站源码成功替换时间很快，大概一分钟左右，Good!

https 性能优化

上面的一切搞定后，体验了一天访问我的博客 https://rebootcat.com，使用 chrome 控制台发现 ssl 握手时间很慢，第一次访问基本都要 3 ~ 4 s左右，无法忍受，再次访问就快了。

所以网上搜索了下关于 Let’s Encrypt 的优化，找到了一些解决方案以及 nginx 的配置优化等：

# config file name: /etc/nginx/nginx.conf


user  root;
worker_processes  2;

error_log  /var/log/nginx/error.log;
#error_log  logs/error.log  notice;
#error_log  logs/error.log  info;

pid         /var/run/nginx.pid;

# Load dynamic modules. See /usr/share/doc/nginx/README.dynamic.
include /usr/share/nginx/modules/*.conf;

events {
    worker_connections  1024;
}


http {
    include             /etc/nginx/mime.types;
    default_type        application/octet-stream;

    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';

    #access_log  /var/log/nginx/access.log  main;

    sendfile        on;
    tcp_nopush      on;
    tcp_nodelay     on;

    #keepalive_timeout  0;
    keepalive_timeout  65;
    types_hash_max_size 2048;

    gzip  on;
    gzip_vary on;
    gzip_min_length 1k; #不压缩临界值,大于1k的才压缩,一般不用改
    gzip_buffers 4 16k;
    gzip_comp_level 6; #压缩级别,数字越大压缩的越好
    gzip_types  text/plain application/javascript application/x-javascript application/json text/css application/xml text/javascript application/x-httpd-php image/jpeg image/gif image/png image/x-icon text/xml;

    #记录160000个请求 超过将返回失败
    limit_conn_zone $binary_remote_addr zone=addr:10m;
    #单个请求小于20r/s
    limit_req_zone $binary_remote_addr zone=one:10m rate=20r/s;


    server {
        listen 80;
        server_name  www.rebootcat.com rebootcat.com;
        rewrite ^ https://$server_name$request_uri? permanent;
        access_log  /var/log/nginx/access_rebootcat.log  main;
    }


    #  HTTPS server

    server {
        listen 443 http2 ssl;
        server_name  www.rebootcat.com rebootcat.com;
        access_log  /var/log/nginx/access_rebootcat.log  main;

        charset utf-8;
        root         /usr/share/nginx/html/smaugx.github.io;
        limit_conn addr 10;

        location /api {
            limit_req zone=one burst=10;

            # 真实的客户端IP
            proxy_set_header   X-Real-IP        $remote_addr;
            # 请求头中Host信息
            proxy_set_header   Host             $host;
            # 代理路由信息，此处取IP有安全隐患
            proxy_set_header   X-Forwarded-For  $proxy_add_x_forwarded_for;
            # 真实的用户访问协议
            proxy_set_header   X-Forwarded-Proto $scheme;
        }

        location ~.*\.(js|css|ico|png|jpg)$
        {
            expires    3d;
        }

        location /js
        {
            #add_header Cache-Control no-cache;
        }

        location / {
            limit_req zone=one burst=30;
            index  index.html index.htm;
        }

        error_page  404              /404.html;

        # redirect server error pages to the static page /50x.html
        error_page   500 502 503 504  /50x.html;


        # 开启 ssl
        #ssl on;

        # letsencrypt生成的文件
        ssl_certificate /etc/letsencrypt/live/rebootcat.com/fullchain.pem;
        ssl_certificate_key /etc/letsencrypt/live/rebootcat.com/privkey.pem;

        ssl_session_timeout 20m;
        ssl_session_cache shared:SSL:50m;
        # 由客户端保存加密后的session信息
        ssl_session_tickets on;

        ssl_dhparam /etc/ssl/private/dhparam.pem;

        # 开启OCSP Stapling，由服务器验证证书在线状态，提高TLS握手效率
        ssl_stapling on;
        ssl_stapling_verify on;

        # 开启HSTS，缓存http重定向到https，以防止中间人攻击
        # 不包含子域(宝塔界面是http的)
        # 不预加载(预加载要在https://hstspreload.org/中添加)
        add_header Strict-Transport-Security "max-age=63072000;" always;

        # 开启TLS False Start
        ssl_prefer_server_ciphers on;

        ssl_protocols TLSv1 TLSv1.1 TLSv1.2 TLSv1.3;
        # 一般推荐使用的ssl_ciphers值: https://wiki.mozilla.org/Security/Server_Side_TLS
        ssl_ciphers 'ECDHE-RSA-AES128-GCM-SHA256:ECDHE-ECDSA-AES128-GCM-SHA256:ECDHE-RSA-AES256-GCM-SHA384:ECDHE-ECDSA-AES256-GCM-SHA384:DHE-RSA-AES128-GCM-SHA256:DHE-DSS-AES128-GCM-SHA256:kEDH+AESGCM:ECDHE-RSA-AES128-SHA256:ECDHE-ECDSA-AES128-SHA256:ECDHE-RSA-AES128-SHA:ECDHE-ECDSA-AES128-SHA:ECDHE-RSA-AES256-SHA384:ECDHE-ECDSA-AES256-SHA384:ECDHE-RSA-AES256-SHA:ECDHE-ECDSA-AES256-SHA:DHE-RSA-AES128-SHA256:DHE-RSA-AES128-SHA:DHE-DSS-AES128-SHA256:DHE-RSA-AES256-SHA256:DHE-DSS-AES256-SHA:DHE-RSA-AES256-SHA:AES128-GCM-SHA256:AES256-GCM-SHA384:AES128:AES256:AES:DES-CBC3-SHA:HIGH:!aNULL:!eNULL:!EXPORT:!DES:!RC4:!MD5:!PSK';
    }




    server {
        listen 80;
        server_name  www.loveyxq.online loveyxq.online;
        rewrite ^ https://$server_name$request_uri? permanent;
        access_log  /var/log/nginx/access_loveyxq.log  main;
    }


    #  HTTPS server

    server {
        listen 443 http2 ssl;
        server_name  www.loveyxq.online loveyxq.online;
        access_log  /var/log/nginx/access_loveyxq.log  main;

        charset utf-8;
        root         /usr/share/nginx/html/smaugx.github.io;
        limit_conn addr 10;

        location /api {
            limit_req zone=one burst=10;

            # 真实的客户端IP
            proxy_set_header   X-Real-IP        $remote_addr;
            # 请求头中Host信息
            proxy_set_header   Host             $host;
            # 代理路由信息，此处取IP有安全隐患
            proxy_set_header   X-Forwarded-For  $proxy_add_x_forwarded_for;
            # 真实的用户访问协议
            proxy_set_header   X-Forwarded-Proto $scheme;
        }

        location ~.*\.(js|css|ico|png|jpg)$
        {
            expires    3d;
        }

        location /js
        {
            #add_header Cache-Control no-cache;
        }

        location / {
            limit_req zone=one burst=30;
            index  index.html index.htm;
        }

        error_page  404              /404.html;

        # redirect server error pages to the static page /50x.html
        error_page   500 502 503 504  /50x.html;


        # 开启 ssl
        #ssl on;

        # letsencrypt生成的文件
        ssl_certificate /etc/letsencrypt/live/loveyxq.online/fullchain.pem;
        ssl_certificate_key /etc/letsencrypt/live/loveyxq.online/privkey.pem;

        ssl_session_timeout 20m;
        ssl_session_cache shared:SSL:50m;
        # 由客户端保存加密后的session信息
        ssl_session_tickets on;

        ssl_dhparam /etc/ssl/private/dhparam.pem;

        # 开启OCSP Stapling，由服务器验证证书在线状态，提高TLS握手效率
        ssl_stapling on;
        ssl_stapling_verify on;

        # 开启HSTS，缓存http重定向到https，以防止中间人攻击
        # 不包含子域(宝塔界面是http的)
        # 不预加载(预加载要在https://hstspreload.org/中添加)
        add_header Strict-Transport-Security "max-age=63072000;" always;

        # 开启TLS False Start
        ssl_prefer_server_ciphers on;

        ssl_protocols TLSv1 TLSv1.1 TLSv1.2 TLSv1.3;
        # 一般推荐使用的ssl_ciphers值: https://wiki.mozilla.org/Security/Server_Side_TLS
        ssl_ciphers 'ECDHE-RSA-AES128-GCM-SHA256:ECDHE-ECDSA-AES128-GCM-SHA256:ECDHE-RSA-AES256-GCM-SHA384:ECDHE-ECDSA-AES256-GCM-SHA384:DHE-RSA-AES128-GCM-SHA256:DHE-DSS-AES128-GCM-SHA256:kEDH+AESGCM:ECDHE-RSA-AES128-SHA256:ECDHE-ECDSA-AES128-SHA256:ECDHE-RSA-AES128-SHA:ECDHE-ECDSA-AES128-SHA:ECDHE-RSA-AES256-SHA384:ECDHE-ECDSA-AES256-SHA384:ECDHE-RSA-AES256-SHA:ECDHE-ECDSA-AES256-SHA:DHE-RSA-AES128-SHA256:DHE-RSA-AES128-SHA:DHE-DSS-AES128-SHA256:DHE-RSA-AES256-SHA256:DHE-DSS-AES256-SHA:DHE-RSA-AES256-SHA:AES128-GCM-SHA256:AES256-GCM-SHA384:AES128:AES256:AES:DES-CBC3-SHA:HIGH:!aNULL:!eNULL:!EXPORT:!DES:!RC4:!MD5:!PSK';
    }

}

重启 nginx 之后，再次使用 chrome 无恒模式打开控制台看一下访问速度，是不是有所好转。

或者直接使用 curl 命令：

$  curl -X GET -w '\n\n    time_namelookup:  %{time_namelookup}
       time_connect:  %{time_connect}
    time_appconnect:  %{time_appconnect}
   time_pretransfer:  %{time_pretransfer}
      time_redirect:  %{time_redirect}
 time_starttransfer:  %{time_starttransfer}
                      ----------
         time_total:  %{time_total}\n'   -H 'Cache-Control: no-cache'  -o /dev/null  -s "https://rebootcat.com"

输出如下：

   time_namelookup:  0.005120
      time_connect:  0.257869
   time_appconnect:  0.492787
  time_pretransfer:  0.492887
     time_redirect:  0.000000
time_starttransfer:  0.751222
                     ----------
        time_total:  1.339793

上面的 time_appconnect 减去 time_connect 的耗时就是 ssl 握手的耗时 0.2349s，比之前好了很多。

The END

OK，到这里算是把博客正式的迁移到腾讯云香港服务器上了，以后就一直打算用自己的服务器托管博客了。

参考

使用 GitHub Actions 实现博客自动化部署
 提高https载入速度，记一次nginx升级优化

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-11-10 于杭州
By 史矛革

free not return memory

2020-11-05T15:23:58.000Z

内存泄露？

观察到一台机器上的内存使用量在程序启动之后，持续增长，中间没有出现内存恢复。怀疑是不是出现了内存泄露的问题？

然后使用相关的内存分析工具进行了分析：

gperf
valgrind (massif)
手工标记内存分配释放

上述的分析结果均不能很肯定的得出是否内存泄露的结论。那么问题可能出现在哪里呢？

程序采用 c++ 编写，大量使用了智能指针以及 new/delete，难道内存没有成功释放？亦或是内存释放有什么条件？于是开始怀疑 free 是不是真的释放了内存？

测试

既然怀疑 free 是不是真的释放了内存，此处的释放，是指程序内存占用下降，内存归还给操作系统，那么直接写一个简单的例子进行验证一下。

attention:

测试前，先关闭 swap：

# swapoff -a

# free -h
              total        used        free      shared  buff/cache   available
Mem:           3.7G        2.5G        1.1G        8.8M         40M        959M
Swap:            0B          0B          0B

测试1

步骤如下：

循环分配大量内存
block 程序，top 工具观察进程内存占用情况
再循环释放所有分配的内存
block 程序，top 工具观察进程内存占用情况
程序退出

上代码：

#include 
#include 
#include 
#include 
#include 

void test(uint32_t num, uint32_t mem_size) {
    std::cout << "test: mem_size = " << mem_size << " total:" << num * mem_size / 1024.0 / 1024.0 << " MB" << std::endl;
    std::vector<char*> vec;
    // 3G
    for (uint32_t i =0; i < num; ++i) {
        char *ptr = new char[mem_size];
        vec.push_back(ptr);
    }

    std::cout << "allocate memory "<< num * mem_size / 1024.0 / 1024.0 <<  " MB done" << std::endl;
    for (auto& ptr : vec) {
        strncpy(ptr, "abcdefghij", mem_size);
    }


    std::cout << "input anything to continue delete all memory..." << std::endl;
    getchar();

    for (auto& ptr : vec) {
        delete ptr;
        ptr = nullptr;
    }

    std::cout << "release memory "<< num * mem_size / 1024.0 / 1024.0 <<  " MB done" << std::endl;
}

int main(int argc, char *argv[]) {
    uint32_t mem_size = 100;
    if (argc >=2) {
        mem_size = std::atoi(argv[1]);
    }
    uint32_t num = (uint32_t)2 * 1024 * 1024 * 1024 / mem_size;

    test(num, mem_size);

    std::cout << "input anything to exit" << std::endl;
    getchar();
    return 0;
}

编译：

1	g++ mem_test.cc -o mem_test -std=c++11

可以通过参数控制内存分配的大小，默认 100Byte：

./mem_test 100
./mem_test 500
./mem_test 1024
./mem_test 10240

过程就省略了，直接上观察结果：

每次测试的虚拟内存大小是类似的，大概在 2G 左右
单次分配内存长度为 100 Byte，调用 free 后内存无明显下降
单次分配内存长度为 500,1024,10240…，调用 free 后内存迅速下降接近 0%
多次测试临界值为 120 Byte

以上测试反应出在不同的情况下， free 的行为有差异，但也说明，调用 free 之后内存是能够立即被释放给操作系统的（只不过有条件）。

那为什么会出现调用 free 之后内存没有被释放（至少看起来是）的情况呢？

测试2

代码不变，还是上面的代码，只不过现在启动两个同样的程序：

分别以上述不同的参数启动程序，让程序执行到释放所有内存之后，block 住
然后启动第二个程序，用同样的参数
观察两个进程是否都能存活

上述有一个条件假设：

total mem: 4G，实际情况可以调整代码里分配内存的总量

过程也省略，直接上观察结果：

单次分配内存 100 Byte，启动第二个同样的程序，出现 OOM （先启动这个被 kill)
单次分配 500,1024,10240…，启动第二个同样的程序，不会 OOM

上面的结果和测试1 的结果是吻合的，这能肯定的说明出现 OOM 的场景下，第一个进程的内存虽然完全释放了，但是内存依然被该进程持有，操作系统无法把这部分已经调用 free 的内存重新分配给其他的进程（第二个进程）。

测试3

稍微调整一下上面的代码，分配释放的操作进行两次，也就是上面的 test() 函数调用 2 次。

另外本次使用 valgrind(massif) 进行分析，此次单次内存分配大小为 100 Byte，也就是上面出现无法释放内存的参数。

int main() {
...
test();

test(); // call again
...
}

使用 valgrind 进行分析：

1	valgrind -v --tool=massif --detailed-freq=2 --time-unit=B --main-stacksize=24000000 --max-stackframe=24000000 --threshold=0.1 --massif-out-file=./massif.out ./mem_test

生成的文件 massif.out 使用 massif-visualizer 处理之后得到如下图：

上图就是内存分配的情况，从图中可以很明显的看到在第一次调用 test() 函数时，内存随着分配而增长，随着释放而下降；第二次调用 test() 函数也是同样的情况。

那这幅图能说明什么呢？

第一次调用 test()后，按照测试2 的情况，内存虽然被释放了，但是内存依然被进程持有，那么不应该出现内存下降的情况，但是从图中看，确实是下降到接近 0 了，那么可以得出一个结论：

test() 至少是没有内存泄露的，即分配的内存，都被释放了（至少标记过释放），也就是没有出现野指针等内存泄露的情况。

那么问题就在于，既然没有内存泄露，那为何内存依然被进程持有？不是已经调用 free 了吗？

glibc malloc/free 实现

glibc malloc 底层调用的是 ptmalloc，这里就不深入 malloc/free 的实现细节了，网上可以找到很多资料。

下图是 32 位程序的虚拟内存空间分布图

原理

向操作系统申请内存涉及到两个系统调用 sbrk 以及 mmap。关于这两个系统调用的区别可以大致这么理解:

ptmalloc 管理了两块堆内存，所以有可能会在两个地方给用户分配内存
这两块堆内存的区别就在于一个可以被循环利用，一个在释放后立即归还操作系统
ptmalloc 使用 sbrk 来为第一块内存区域 heap 进行内存分配，用户释放之后 ptmalloc 对这块内存进行重新管理利用，进程依然持有这块内存
ptmalloc 使用 mmap 来为第二块内存区域 sub-heap 进行内存分配，用户释放之后 ptmalloc 立即把这块内存归还给操作系统
要分配的内存只有达到一定大小（即 mmap 的阈值），ptmalloc 才会采用 mmap 进行内存分配，否则优先选择 sbrk 分配后被重新管理的内存池
mmap 的阈值可能是动态调整的，即 ptmalloc 根据自身内存管理情况，动态调整这个阈值

也就是说，ptmalloc 为了性能考虑，采用了两种内存分配策略，也就是管理了两种不同分配方式的堆内存。在分配内存小于一定值时就优先在 ptmalloc 维护的内存池里进行分配，这样避免了直接向操作系统分配内存，减少系统调用次数；如果内存大于一定值时，就直接向操作系统申请内存，并且这段内存在释放之后立即归还操作系统；

这也就能解释上面的几个测试里，当单次分配的内存大小较大时，内存释放后进程内存占用快速下降到 0%；当单次分配的内存大小较小时，内存释放后其实没有归还给操作系统，二是被 ptmalloc 重新回收了，放到了内存池里进行循环利用，所以看到进程内存依然保持较高的占用；

另外关于 ptmalloc 对内存池的管理比较复杂，这里推荐一篇不错的文章可以深度阅读：

glibc内存管理ptmalloc源代码分析

到这里，其实就已经比较明确了，free 之后内存释放情况其实是跟分配的大小有关系的，并且随着程序的运行，内存的持续分配和释放，ptmalloc 的内存池应该能稳定在一定的值，从外面来看，进程的内存占用应该能动态稳定下来。

ptmalloc 的两套分配策略各有优劣，使用内存池可以提高内存分配效率，但是可能出现内存暴涨的情况，但是最终会稳定在一定的值；使用 mmap 的方式分配内存不会出现内存暴涨的情况，释放完之后理解归还操作系统，但降低了内存分配的效率。

修改 malloc 参数

根据上面的讨论，如果想要控制 malloc 的内存分配行为，那么其实是有办法做到的。

我们可以通过下面这个函数来实现：

1	int mallopt(int param, int value);

https://man7.org/linux/man-pages/man3/mallopt.3.html

可以调整 M_TRIM_THRESHOLD，M_MMAP_THRESHOLD，M_TOP_PAD 和 M_MMAP_MAX 中的任意一个，关闭 mmap 分配阈值动态调整机制。

比如上面的测试1，当单次分配的内存 100 Byte 时，内存释放之后进程内存占用依然较高的情况就能解决：

int main() {
    mallopt(M_MMAP_THRESHOLD, 64);
    mallopt(M_TRIM_THRESHOLD, 64);
    
    ...
}

M_MMAP_THRESHOLD: mmap 内存分配阈值
M_RIM_THRESHOLD: mmap 收缩阈值

在 main 函数开始加上上面的两句，调整 mmap 收缩阈值以及内存分配阈值。重新编译运行，发现即使单次分配 100 Byte，内存释放后，进程内存占用也快速下降到 0%。

补充：

1	int malloc_trim(size_t pad);

可以触发 ptmalloc 对内存的紧缩，即归还一部分内存给操作系统。

总结

进程内存占用较高的情况不一定是内存泄露造成的，可以通过长时间观察内存占用是否能稳定下来进行判断，如果内存占用能实现动态稳定，那么多半程序是没有内存泄露的。

但是如果内存占用过高，对其他的进程产生了干扰，那么可以适当的调整一下 malloc 的参数，控制 malloc 的行为，避免 glibc 内存池过大，影响其他进程的运行。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-11-05 于杭州
By 史矛革

Linux上隐藏进程名（初级版）

2020-10-25T14:23:58.000Z

缘起

上一篇博文模仿nginx修改进程名中提到了一种修改进程名的方法，就像 nginx 一样，给不同进程命名为 master 以及 worker 等。那么能不能把新进程名设置为空字符串呢？如果能，又会有哪些应用场景呢？

答案可能是能的，设置新进程的名字为空，通常用来隐藏进程，用于攻击或者反攻击。

prctl 函数

上一篇博文模仿nginx修改进程名文章末尾提到了 prctl 这个函数，它也可以用来修改进程名。

只不过如果单单使用 prctl 来修改进程名的话，使用 ps 或者 top 等工具看到的可能还是原来的名字。

源代码可以在我的 github 找到：

https://github.com/smaugx/setproctitle/blob/main/hidden_process/prctl_main.cc

#include 
#include 
#include 
#include 
#include 

int main(int argc, char* argv[], char *envp[])
{
    const char *new_title = "prctl_new_name";
    prctl(PR_SET_NAME, new_title, NULL, NULL, NULL);
    while (true) {
        sleep(2);
    }
    return 0;
}

编译运行：

1 2	# g++ prctl_main.cc -o prctl_main -std=c++11 # ./prctl_main

然后我们查看一下进程的名字：

1
2
3

# ps -ef |grep prctl
root     20758 12289  0 17:39 pts/3    00:00:00 ./prctl_main
root     20791 20422  0 17:39 pts/1    00:00:00 grep --color=auto prctl

可以看到 ps 看到的进程名依然是 prctl_main 而不是 prctl_new_name。那么 prctl 函数到底修改了哪里呢？ ps 命令又是从哪里读取的进程名呢？

/proc/ 虚拟文件夹

linux 上一切皆文件，启动一个进程，就会在系统的 /proc 这个虚拟文件系统下创建这个进程相关的文件夹，里面记录了这个进程的数据。

# ls /proc/20758
attr       cgroup      comm             cwd      fd       io        map_files  mountinfo   net        oom_adj        pagemap      projid_map  schedstat  smaps  statm    task     wchan
autogroup  clear_refs  coredump_filter  environ  fdinfo   limits    maps       mounts      ns         oom_score      patch_state  root        sessionid  stack  status   timers
auxv       cmdline     cpuset           exe      gid_map  loginuid  mem        mountstats  numa_maps  oom_score_adj  personality  sched       setgroups  stat   syscall  uid_map

关注一下这两个虚拟文件:

1 2	# cat /proc/20758/cmdline ./prctl_main

以及

# cat /proc/20758/status
Name:prctl_new_name
Umask:0022
State:S (sleeping)
Tgid:20758
Ngid:0
Pid:20758
PPid:12289
TracerPid:0
Uid:0000
Gid:0000

...(省略）

细心的同学应该发现上面的不一致了吧， /proc//cmdline 这个文件记录的进程名是 prctl_main，而 /proc//status 中 Name 值记录的进程名是 prctl_new_name。而 ps 命令正好是读取了 cmdline 这个文件，导致即便使用 prctl 修改了进程名，但 ps 依然看到的是老的进程名。

另外要注意，prctl() 这个函数有个限制，新进程的名字长度不能超过 16 字节（包括最后的 ‘\0’），详见手册：

https://man7.org/linux/man-pages/man2/prctl.2.html

prctl 结合 argv[0]

上面的分析看到，不论是修改 argv[0] 还是使用 prctl，均有其局限性，那么通常可以结合两者来进行。

源码可以在我的 github 找到：

https://github.com/smaugx/setproctitle/blob/main/hidden_process/hidden_main.cc

#include 
#include 
#include 
#include 
#include 

#include "../setproctitle.h"

char **smaug_os_argv;

int main(int argc, char* argv[], char *envp[])
{
    smaug_os_argv = argv;

    // set new process NULL to hide process
    const char *new_title = "hidden_main_new";
    if (smaug_init_setproctitle() == SMAUG_PROCTITLE_OK) {
        smaug_setproctitle(new_title);
    }
    // set new process NULL to hide process
    prctl(PR_SET_NAME, new_title, NULL, NULL, NULL);

    while (true) {
        sleep(1);
    }
    return 0;
}

编译运行：

# ps -ef |grep hidd
root     21753 12289  0 17:55 pts/3    00:00:00 hidden_main_new
root     21760 20422  0 17:55 pts/1    00:00:00 grep --color=auto hidd

# cat /proc/21753/cmdline
hidden_main_new[root@Jiao ~]#

# cat /proc/21753/status |grep Name
Name:hidden_main_new

可以看到，无论是通过 ps 命令还是直接查看 /proc// 下的文件的方式，均能看到修改后的名字： hidden_main_new。

隐藏进程

经过上一步，已经可以完美的修改进程名了，那么再进一步，如何隐藏进程呢？

1	const char *new_title = "";

只需要修改上述的一行代码，重新编译即可，然后用 ps 或者 top 看一下，能不能找到这个进程：

1 2	# ps -ef \|grep hidden root 22022 20422 0 17:59 pts/1 00:00:00 grep --color=auto hidden

可以看到 ps 无法找到 hidden* 相关的进程，那么 top 呢？

top - 18:01:06 up 16 days,  4:16,  9 users,  load average: 0.00, 0.01, 0.05
Tasks: 121 total,   1 running, 120 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  3879952 total,  3579624 free,    95660 used,   204668 buff/cache
KiB Swap:  5242876 total,  5164352 free,    78524 used.  3272224 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
31038 root      20   0  115800    372    368 S   0.0  0.0   0:00.70 bash
22081 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/1:0
22078 root      20   0  162140   2252   1548 R   0.0  0.1   0:00.04 top
22013 root      20   0   11124   1068    908 S   0.0  0.0   0:00.00
21859 root      20   0  115892    244    240 S   0.0  0.0   0:00.46 bash
21725 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/1:2
20811 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0

运行 top 命令，并且以 pid 倒叙排序，注意第四行的进程，可以看到 COMMAND 为空，这个进程就是刚才的这个进程，但是看不到进程名了，达到了简单的、初级的隐藏进程的目的。

扩展一下

上述相关代码均可以在我的 github 找到：

https://github.com/smaugx/setproctitle/tree/main/hidden_process

上面的讨论可以看到，能实现初级的，简单的进程隐藏，但是使用 top 命令还是能看到这个无名进程，那么这点改怎么解决呢？

这里就不展开了，我没有这方面的经验。不过通常来说有两种办法：

修改进程名为常见的一些进程名，比如 bash, top, nginx 等以达到混淆的目的
想办法把 /proc// 这个虚拟文件夹隐藏或者达到隐藏类的效果（不太擅长）

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-10-25 于杭州
By 史矛革

模仿nginx修改进程名

2020-10-25T03:23:58.000Z

nginx 进程名

使用 nginx 的过程中，我们经常看到 nginx 的进程名是不同的，如下：

$ ps -ef |grep nginx 
smaug    1183  1115  0 05:46 pts/2    00:00:00 grep --color=auto nginx
root     14201     1  0  2019 ?        00:00:00 nginx: master process ./sbin/nginx
nobody   28887 14201  0 Oct14 ?        00:00:00 nginx: worker process
nobody   28888 14201  0 Oct14 ?        00:00:00 nginx: worker process

可以看到 nginx 的进程名是不同的，那么它是怎么做到的呢？

argv[0]

首先来看一下 C 语言中的 main 函数的定义：

1	int main(int argc, char *argv[]);

这个应该大家都是比较熟悉的，argc 表示命令行参数个数， argv 保存了各个命令行参数的内容。其中 argv[0] 表示的是进程的名字，这就是修改进程名的关键点所在。

只需要修改 argv[0] 的值即可完成修改进程名。

hello world

下面以程序员经典入门代码为例说明：

// filename: hello_world_setproctitle.cc
// build: g++ hello_world_setproctitle.cc -o hello_world_setproctitle

#include 
#include 

int main(int argc, char *argv[]) {
    printf("hello world\n");
    while (true) {
        // block here
        char c = getchar();
    }
    return 0;
}

编译运行：

1 2	g++ hello_world_setproctitle.cc -o hello_world_setproctitle ./hello_world_setproctitle

查看一下进程名：

1
2
3

# ps -ef |grep hello_world
root     26356 12289  0 14:17 pts/3    00:00:00 ./hello_world_setproctitle
root     26366 20422  0 14:18 pts/1    00:00:00 grep --color=auto hello_world

可以看到进程名是 hello_world_setproctitle，接下来我们修改一下 argv[0] 的值，代码如下：

// filename: hello_world_setproctitle.cc
// build: g++ hello_world_setproctitle.cc -o hello_world_setproctitle

#include 
#include 

int main(int argc, char *argv[]) {
    // new process name
    const char* new_name = "new_new_hello_world_setproctitle";
    strcpy(argv[0], new_name);
    printf("hello world\n");
    while (true) {
        // block here
        char c = getchar();
    }
    return 0;
}

编译运行之后，查看进程名：

1
2
3

# ps -ef |grep hello_world
root     26750 12289  0 14:23 pts/3    00:00:00 new_new_hello_world_setproctitle
root     26754 20422  0 14:23 pts/1    00:00:00 grep --color=auto hello_world

可以看到进程名已经修改为 new_new_hello_world_setproctitle 了。

是不是很简单？

不过上面的代码是有一定的风险的，如果新的进程名超过了原来 argv[0] 的长度，就可能会影响到后面的 environ 的内容。

环境变量 environ

C 语言中 main 函数的定义还有一个:

1	int main(int argc, char argv[], char envp[]);

这个版本提供了第三个参数，大多数 Unix 系统支持，但是 POSIX.1 不建议这么做，如果要访问环境变量建议使用 getenv 和 putenv 接口。这里就不展开讲了。

envp 这个参数表示环境变量，每一个进程都有与之相关的环境变量，其中每个字符串都以(name=value)形式定义，并且 envp 的地址紧跟在 argv 之后。

hello world environ

接下来我们打印一下 envp 这个参数的值，基于上面的代码，简单修改一下：

// filename: hello_world_setproctitle.cc
// build: g++ hello_world_setproctitle.cc -o hello_world_setproctitle

#include 
#include 

int main(int argc, char *argv[], char *envp[]) {
    int i;
    for (i = 0; i < argc; ++i) {
        printf("mem:%p len:%d argv[%d]: %s\n", argv[i], strlen(argv[i]), i, argv[i]);
    }
    printf("\n");
    for (i = 0; envp[i] != NULL; ++i) {
        printf("mem:%p len:%d envp[%d]: %s\n", envp[i], strlen(envp[i]), i, envp[i]);
    }

    const char* new_name = "new_new_hello_world_setproctitle";
    strcpy(argv[0], new_name);
    printf("hello world\n");
    while (true) {
        // block here
        char c = getchar();
    }
    return 0;
}

上面的代码同时也打印了每个参数的地址以及长度，编译并执行：

# ./hello_world_setproctitle 1 22
mem:0x7ffc84cf7544 len:26 argv[0]: ./hello_world_setproctitle
mem:0x7ffc84cf755f len:1 argv[1]: 1
mem:0x7ffc84cf7561 len:2 argv[2]: 22

mem:0x7ffc84cf7564 len:19 envp[0]: XDG_SESSION_ID=2554
mem:0x7ffc84cf7578 len:13 envp[1]: HOSTNAME=Jiao
mem:0x7ffc84cf7586 len:23 envp[2]: SELINUX_ROLE_REQUESTED=
mem:0x7ffc84cf759e len:19 envp[3]: TERM=xterm-256color
mem:0x7ffc84cf75b2 len:15 envp[4]: SHELL=/bin/bash
mem:0x7ffc84cf75c2 len:13 envp[5]: HISTSIZE=1000
mem:0x7ffc84cf75d0 len:31 envp[6]: SSH_CLIENT=192.168.1.3 61311 22
mem:0x7ffc84cf75f0 len:26 envp[7]: SELINUX_USE_CURRENT_RANGE=
mem:0x7ffc84cf760b len:75 envp[8]: ANDROID_NDK_TOOLCHAIN_ROOT=/root/smaug/software/android-ndk-r16b/toolchains
mem:0x7ffc84cf7657 len:12 envp[9]: OLDPWD=/root
mem:0x7ffc84cf7664 len:18 envp[10]: SSH_TTY=/dev/pts/3
mem:0x7ffc84cf7677 len:9 envp[11]: USER=root
mem:0x7ffc84cf7681 len:75 envp[12]: LD_LIBRARY_PATH=/usr/local/lib:/usr/local/python3/lib::/usr/local/topio/lib
mem:0x7ffc84cf76cd len:1719 envp[13]: LS_COLORS=rs=0:di=38;5;27:ln=38;5;51:mh=44;38;5;15:pi=40;38;5;11:so=38;5;13:do=38;5;5:bd=48;5;232;38;5;11:cd=48;5;232;38;5;3:or=48;5;232;38;5;9:mi=05;48;5;232;38;5;15:su=48;5;196;38;5;15:sg=48;5;11;38;5;16:ca=48;5;196;38;5;226:tw=48;5;10;38;5;16:ow=48;5;10;38;5;21:st=48;5;21;38;5;15:ex=38;5;34:*.tar=38;5;9:*.tgz=38;5;9:*.arc=38;5;9:*.arj=38;5;9:*.taz=38;5;9:*.lha=38;5;9:*.lz4=38;5;9:*.lzh=38;5;9:*.lzma=38;5;9:*.tlz=38;5;9:*.txz=38;5;9:*.tzo=38;5;9:*.t7z=38;5;9:*.zip=38;5;9:*.z=38;5;9:*.Z=38;5;9:*.dz=38;5;9:*.gz=38;5;9:*.lrz=38;5;9:*.lz=38;5;9:*.lzo=38;5;9:*.xz=38;5;9:*.bz2=38;5;9:*.bz=38;5;9:*.tbz=38;5;9:*.tbz2=38;5;9:*.tz=38;5;9:*.deb=38;5;9:*.rpm=38;5;9:*.jar=38;5;9:*.war=38;5;9:*.ear=38;5;9:*.sar=38;5;9:*.rar=38;5;9:*.alz=38;5;9:*.ace=38;5;9:*.zoo=38;5;9:*.cpio=38;5;9:*.7z=38;5;9:*.rz=38;5;9:*.cab=38;5;9:*.jpg=38;5;13:*.jpeg=38;5;13:*.gif=38;5;13:*.bmp=38;5;13:*.pbm=38;5;13:*.pgm=38;5;13:*.ppm=38;5;13:*.tga=38;5;13:*.xbm=38;5;13:*.xpm=38;5;13:*.tif=38;5;13:*.tiff=38;5;13:*.png=38;5;13:*.svg=38;5;13:*.svgz=38;5;13:*.mng=38;5;13:*.pcx=38;5;13:*.mov=38;5;13:*.mpg=38;5;13:*.mpeg=38;5;13:*.m2v=38;5;13:*.mkv=38;5;13:*.webm=38;5;13:*.ogm=38;5;13:*.mp4=38;5;13:*.m4v=38;5;13:*.mp4v=38;5;13:*.vob=38;5;13:*.qt=38;5;13:*.nuv=38;5;13:*.wmv=38;5;13:*.asf=38;5;13:*.rm=38;5;13:*.rmvb=38;5;13:*.flc=38;5;13:*.avi=38;5;13:*.fli=38;5;13:*.flv=38;5;13:*.gl=38;5;13:*.dl=38;5;13:*.xcf=38;5;13:*.xwd=38;5;13:*.yuv=38;5;13:*.cgm=38;5;13:*.emf=38;5;13:*.axv=38;5;13:*.anx=38;5;13:*.ogv=38;5;13:*.ogx=38;5;13:*.aac=38;5;45:*.au=38;5;45:*.flac=38;5;45:*.mid=38;5;45:*.midi=38;5;45:*.mka=38;5;45:*.mp3=38;5;45:*.mpc=38;5;45:*.ogg=38;5;45:*.ra=38;5;45:*.wav=38;5;45:*.axa=38;5;45:*.oga=38;5;45:*.spx=38;5;45:*.xspf=38;5;45:
mem:0x7ffc84cf7d85 len:25 envp[14]: MAIL=/var/spool/mail/root
mem:0x7ffc84cf7d9f len:193 envp[15]: PATH=/root/.cargo/bin:/root/.cargo/bin:/usr/local/vim/bin:/usr/local/bin:/usr/loca/python3/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/usr/local/go/bin:/root/bin:/usr/local/topio/bin
mem:0x7ffc84cf7e61 len:21 envp[16]: MARKPATH=/root/.marks
mem:0x7ffc84cf7e77 len:14 envp[17]: PWD=/root/temp
mem:0x7ffc84cf7e86 len:16 envp[18]: LANG=zh_CN.UTF-8
mem:0x7ffc84cf7e97 len:38 envp[19]: PS1=\[\e[32;1m\][\u@\h \w]\$ \[\e[0m\]
mem:0x7ffc84cf7ebe len:24 envp[20]: SELINUX_LEVEL_REQUESTED=
mem:0x7ffc84cf7ed7 len:22 envp[21]: HISTCONTROL=ignoredups
mem:0x7ffc84cf7eee len:7 envp[22]: SHLVL=1
mem:0x7ffc84cf7ef6 len:10 envp[23]: HOME=/root
mem:0x7ffc84cf7f01 len:12 envp[24]: LOGNAME=root
mem:0x7ffc84cf7f0e len:47 envp[25]: SSH_CONNECTION=192.168.1.3 61311 192.168.1.4 22
mem:0x7ffc84cf7f3e len:16 envp[26]: GOPATH=/root/.go
mem:0x7ffc84cf7f4f len:34 envp[27]: LESSOPEN=||/usr/bin/lesspipe.sh %s
mem:0x7ffc84cf7f72 len:49 envp[28]: ANDROID_NDK=/root/smaug/software/android-ndk-r16b
mem:0x7ffc84cf7fa4 len:27 envp[29]: XDG_RUNTIME_DIR=/run/user/0
mem:0x7ffc84cf7fc0 len:28 envp[30]: _=./hello_world_setproctitle
hello world

可以看到上述各个 argv 的值以及 envp 参数的内容。

这里需要重点注意一下最后一个 argv[2] 参数以及第一个 envp[0] 参数的地址：

1
2
3

mem:0x7ffc84cf7561 len:2 argv[2]: 22

mem:0x7ffc84cf7564 len:19 envp[0]: XDG_SESSION_ID=2554

0x7ffc84cf7564 正好等于 0x7ffc84cf7561 + 3 （argv[2] 的长度加上最后一个 ‘\0’)。可以多试几次，不同的参数个数验证下这个。

所以 environ 的地址（envp[0] 的地址）是紧跟在 argv 后面的，那么前面提到的如果当新的进程名长度超出 argv 的长度后，可能就会覆盖后面的 environ 内容，导致其他一些问题。

新进程名过长，覆盖 envp

修改如上代码：

// filename: hello_world_setproctitle.cc
// build: g++ hello_world_setproctitle.cc -o hello_world_setproctitle

#include 
#include 

int main(int argc, char *argv[], char *envp[]) {
    const char* new_name = "new_new_hello_world_setproctitlexxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
    strcpy(argv[0], new_name);
    int i;
    for (i = 0; i < argc; ++i) {
        printf("mem:%p len:%d argv[%d]: %s\n", argv[i], strlen(argv[i]), i, argv[i]);
    }
    printf("\n");
    for (i = 0; envp[i] != NULL; ++i) {
        printf("mem:%p len:%d envp[%d]: %s\n", envp[i], strlen(envp[i]), i, envp[i]);
    }

    printf("hello world\n");
    while (true) {
        // block here
        char c = getchar();
    }
    return 0;
}

编译运行：

# ./hello_world_setproctitle
mem:0x7fff872c3549 len:125 argv[0]: new_new_hello_world_setproctitlexxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

mem:0x7fff872c3564 len:98 envp[0]: titlexxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
mem:0x7fff872c3578 len:78 envp[1]: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
mem:0x7fff872c3586 len:64 envp[2]: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
mem:0x7fff872c359e len:40 envp[3]: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
mem:0x7fff872c35b2 len:20 envp[4]: xxxxxxxxxxxxxxxxxxxx
mem:0x7fff872c35c2 len:4 envp[5]: xxxx
mem:0x7fff872c35d0 len:31 envp[6]: SSH_CLIENT=192.168.1.3 55187 22
mem:0x7fff872c35f0 len:26 envp[7]: SELINUX_USE_CURRENT_RANGE=
mem:0x7fff872c360b len:75 envp[8]: ANDROID_NDK_TOOLCHAIN_ROOT=/root/smaug/software/android-ndk-r16b/toolchains
mem:0x7fff872c3657 len:12 envp[9]: OLDPWD=/root
mem:0x7fff872c3664 len:18 envp[10]: SSH_TTY=/dev/pts/1
mem:0x7fff872c3677 len:9 envp[11]: USER=root

可以看到，上面打印出来的 envp[0], envp[1].. envp[5] 都已经被覆盖了。

所以，通过 argv[0] 修改进程名，如果新进程名过长，需要考虑到 envp 的覆盖问题，通常做法是把 envp 的内容先保存，然后指向新的内存，再把保存的环境变量复制到新的内存，然后再去修改 argv[0]。

setproctitle 修改进程名

可以参考 nginx 的源码: https://github.com/nginx/nginx/blob/master/src/os/unix/ngx_setproctitle.c

下面直接上源码，源码可以在我的 github 找到：

https://github.com/smaugx/setproctitle

setproctitle.h

// author: smaug

#pragma once


#ifndef _SMAUG_SETPROCTITLE_H_INCLUDED_
#define _SMAUG_SETPROCTITLE_H_INCLUDED_

#define SMAUG_PROCTITLE_ERROR  -1
#define SMAUG_PROCTITLE_OK   0

int smaug_init_setproctitle();
void smaug_setproctitle(const char *title);

#endif /* _SMAUG_SETPROCTITLE_H_INCLUDED_ */

setproctitle.cc

// author: smaug

#include "setproctitle.h"

#include 
#include 
#include 
#include 

#include 

/*
 * To change the process title in Linux and Solaris we have to set argv[1]
 * to NULL and to copy the title to the same place where the argv[0] points to.
 * However, argv[0] may be too small to hold a new title.  Fortunately, Linux
 * and Solaris store argv[] and environ[] one after another.  So we should
 * ensure that is the continuous memory and then we allocate the new memory
 * for environ[] and copy it.  After this we could use the memory starting
 * from argv[0] for our process title.
 */

extern char **environ;
// same as argv
extern char** smaug_os_argv;
static char *smaug_os_argv_last;

int smaug_init_setproctitle()
{
    char *p;
    int i = 0;
    uint32_t size = 0;

    // 统计所有 environ 环境变量的长度(+1 是表示每个字符串后的 '\0')
    for (i = 0; environ[i]; i++) {
        size += strlen(environ[i]) + 1;
    }

    // 重新分配一段内存，待会用来保存 environ 指向的环境变量
    p = (char*)malloc(size);
    if (p == NULL) {
        return SMAUG_PROCTITLE_ERROR;
    }

    smaug_os_argv_last = smaug_os_argv[0];

    // 遍历 argv，完成后指向 argv 最后一个参数的 '\0' 的下一个位置，也就是 envp[0] 的地址
    for (i = 0; smaug_os_argv[i]; i++) {
        if (smaug_os_argv_last == smaug_os_argv[i]) {
            smaug_os_argv_last = smaug_os_argv[i] + strlen(smaug_os_argv[i]) + 1;
        }
    }

    for (i = 0; environ[i]; i++) {
        if (smaug_os_argv_last == environ[i]) {

            // 包括 '\0'
            size = strlen(environ[i]) + 1;
            // smaug_os_argv_last 接着往前递进, 经过每一个环境变量
            smaug_os_argv_last = environ[i] + size;

            // 拷贝每一个 环境变量到上面刚申请的新内存中
            strncpy(p, environ[i], size);
            // 修改 environ[i] 指向这块新的内存地址（避免后续修改 argv[0] 造成覆盖)
            environ[i] = (char *) p;
            // 新内存指针 p 前移，称为下一轮 environ[i+1] 的值
            p += size;
        }
    }

    // 指针往前移 1 个字节，指向 最后一个环境变量的 '\0' 位置
    smaug_os_argv_last--;

    return SMAUG_PROCTITLE_OK;
}


void smaug_setproctitle(const char *title)
{
    // 设置 argv[1] = NULL 通常不必要，加上更安全
    smaug_os_argv[1] = NULL;
    /*
    char new_title[1024];
    bzero(new_title, sizeof(new_title));
    sprintf(new_title, "%s%s", "smaug: ", title);
    */

    // smaug_os_argv_last - smaug_os_argv[0] 就是最初 argv + envp 所有字符串的长度, 拷贝新进程名到 argv[0]
    strncpy(smaug_os_argv[0], title, smaug_os_argv_last - smaug_os_argv[0]);

#ifdef DEBUG
    printf("set title:%s\n", new_title);
#endif
}

编译运行：

# sh build.sh
# ./main

#######this is father process###########
master mem:0x7ffce4714573 len:20 argv[0]: setproctitle: master

master mem:0x12e0c20 len:19 envp[0]: XDG_SESSION_ID=2554
master mem:0x12e0c34 len:13 envp[1]: HOSTNAME=Jiao
master mem:0x12e0c42 len:23 envp[2]: SELINUX_ROLE_REQUESTED=
master mem:0x12e0c5a len:19 envp[3]: TERM=xterm-256color
master mem:0x12e0c6e len:15 envp[4]: SHELL=/bin/bash
master mem:0x12e0c7e len:13 envp[5]: HISTSIZE=1000
master mem:0x12e0c8c len:31 envp[6]: SSH_CLIENT=192.168.1.3 61311 22
master mem:0x12e0cac len:26 envp[7]: SELINUX_USE_CURRENT_RANGE=
master mem:0x12e0cc7 len:75 envp[8]: ANDROID_NDK_TOOLCHAIN_ROOT=/root/smaug/software/android-ndk-r16b/toolchains
master mem:0x12e0d13 len:17 envp[9]: OLDPWD=/root/temp
master mem:0x12e0d25 len:18 envp[10]: SSH_TTY=/dev/pts/3
master mem:0x12e0d38 len:9 envp[11]: USER=root
master mem:0x12e0d42 len:75 envp[12]: LD_LIBRARY_PATH=/usr/local/lib:/usr/local/python3/lib::/usr/local/topio/lib
master mem:0x12e0d8e len:1719 envp[13]: LS_COLORS=rs=0:di=38;5;27:ln=38;5;51:mh=44;38;5;15:pi=40;38;5;11:so=38;5;13:do=38;5;5:bd=48;5;232;38;5;11:cd=48;5;232;38;5;3:or=48;5;232;38;5;9:mi=05;48;5;232;38;5;15:su=48;5;196;38;5;15:sg=48;5;11;38;5;16:ca=48;5;196;38;5;226:tw=48;5;10;38;5;16:ow=48;5;10;38;5;21:st=48;5;21;38;5;15:ex=38;5;34:*.tar=38;5;9:*.tgz=38;5;9:*.arc=38;5;9:*.arj=38;5;9:*.taz=38;5;9:*.lha=38;5;9:*.lz4=38;5;9:*.lzh=38;5;9:*.lzma=38;5;9:*.tlz=38;5;9:*.txz=38;5;9:*.tzo=38;5;9:*.t7z=38;5;9:*.zip=38;5;9:*.z=38;5;9:*.Z=38;5;9:*.dz=38;5;9:*.gz=38;5;9:*.lrz=38;5;9:*.lz=38;5;9:*.lzo=38;5;9:*.xz=38;5;9:*.bz2=38;5;9:*.bz=38;5;9:*.tbz=38;5;9:*.tbz2=38;5;9:*.tz=38;5;9:*.deb=38;5;9:*.rpm=38;5;9:*.jar=38;5;9:*.war=38;5;9:*.ear=38;5;9:*.sar=38;5;9:*.rar=38;5;9:*.alz=38;5;9:*.ace=38;5;9:*.zoo=38;5;9:*.cpio=38;5;9:*.7z=38;5;9:*.rz=38;5;9:*.cab=38;5;9:*.jpg=38;5;13:*.jpeg=38;5;13:*.gif=38;5;13:*.bmp=38;5;13:*.pbm=38;5;13:*.pgm=38;5;13:*.ppm=38;5;13:*.tga=38;5;13:*.xbm=38;5;13:*.xpm=38;5;13:*.tif=38;5;13:*.tiff=38;
5;13:*.png=38;5;13:*.svg=38;5;13:*.svgz=38;5;13:*.mng=38;5;13:*.pcx=38;5;13:*.mov=38;5;13:*.mpg=38;5;13:*.mpeg=38;5;13:*.m2v=38;5;13:*.mkv=38;5;13:*.webm=38;5;13:*.ogm=38;5;13:*.mp4=38;5;13:*.m4v=38;5;13:*.mp4v=38;5;13:*.vob=38;5;13:*.qt=38;5;13:*.nuv=38;5;13:*.wmv=38;5;13:*.asf=38;5;13:*.rm=38;5;13:*.rmvb=38;5;13:*.flc=38;5;13:*.avi=38;5;13:*.fli=38;5;13:*.flv=38;5;13:*.gl=38;5;13:*.dl=38;5;13:*.xcf=38;5;13:*.xwd=38;5;13:*.yuv=38;5;13:*.cgm=38;5;13:*.emf=38;5;13:*.axv=38;5;13:*.anx=38;5;13:*.ogv=38;5;13:*.ogx=38;5;13:*.aac=38;5;45:*.au=38;5;45:*.flac=38;5;45:*.mid=38;5;45:*.midi=38;5;45:*.mka=38;5;45:*.mp3=38;5;45:*.mpc=38;5;45:*.ogg=38;5;45:*.ra=38;5;45:*.wav=38;5;45:*.axa=38;5;45:*.oga=38;5;45:*.spx=38;5;45:*.xspf=38;5;45:

master mem:0x12e1446 len:25 envp[14]: MAIL=/var/spool/mail/root
master mem:0x12e1460 len:193 envp[15]: PATH=/root/.cargo/bin:/root/.cargo/bin:/usr/local/vim/bin:/usr/local/bin:/usr/loca/python3/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/usr/local/go/bin:/root/bin:/usr/local/topio/bin
master mem:0x12e1522 len:21 envp[16]: MARKPATH=/root/.marks
#######this is child process###########
master mem:0x12e1538 len:27 envp[17]: PWD=/root/temp/setproctitle
master mem:0x12e1554 len:16 envp[18]: LANG=zh_CN.UTF-8
worker mem:0x7ffce4714573 len:20 argv[0]: setproctitle: worker

worker mem:0x12e0c20 len:19 envp[0]: XDG_SESSION_ID=2554
worker mem:0x12e0c34 len:13 envp[1]: HOSTNAME=Jiao
worker mem:0x12e0c42 len:23 envp[2]: SELINUX_ROLE_REQUESTED=
worker mem:0x12e0c5a len:19 envp[3]: TERM=xterm-256color
worker mem:0x12e0c6e len:15 envp[4]: SHELL=/bin/bash
worker mem:0x12e0c7e len:13 envp[5]: HISTSIZE=1000
worker mem:0x12e0c8c len:31 envp[6]: SSH_CLIENT=192.168.1.3 61311 22
worker mem:0x12e0cac len:26 envp[7]: SELINUX_USE_CURRENT_RANGE=
worker mem:0x12e0cc7 len:75 envp[8]: ANDROID_NDK_TOOLCHAIN_ROOT=/root/smaug/software/android-ndk-r16b/toolchains
worker mem:0x12e0d13 len:17 envp[9]: OLDPWD=/root/temp
worker mem:0x12e0d25 len:18 envp[10]: SSH_TTY=/dev/pts/3
worker mem:0x12e0d38 len:9 envp[11]: USER=root
worker mem:0x12e0d42 len:75 envp[12]: LD_LIBRARY_PATH=/usr/local/lib:/usr/local/python3/lib::/usr/local/topio/lib
worker mem:0x12e0d8e len:1719 envp[13]: LS_COLORS=rs=0:di=38;5;27:ln=38;5;51:mh=44;38;5;15:pi=40;38;5;11:so=38;5;13:do=38;5;5:bd=48;5;232;38;5;11:cd=48;5;232;38;5;3:or=48;5;232;38;5;9:mi=05;48;5;232;38;5;15:su=48;5;196;38;5;15:sg=48;5;11;38;5;16:ca=48;5;196;38;5;226:tw=48;5;10;38;5;16:ow=48;5;10;38;5;21:st=48;5;21;38;5;15:ex=38;5;34:*.tar=38;5;9:*.tgz=38;5;9:*.arc=38;5;9:*.arj=38;5;9:*.taz=38;5;9:*.lha=38;5;9:*.lz4=38;5;9:*.lzh=38;5;9:*.lzma=38;5;9:*.tlz=38;5;9:*.txz=38;5;9:*.tzo=38;5;9:*.t7z=38;5;9:*.zip=38;5;9:*.z=38;5;9:*.Z=38;5;9:*.dz=38;5;9:*.gz=38;5;9:*.lrz=38;5;9:*.lz=38;5;9:*.lzo=38;5;9:*.xz=38;5;9:*.bz2=38;5;9:*.bz=38;5;9:*.tbz=38;5;9:*.tbz2=38;5;9:*.tz=38;5;9:*.deb=38;5;9:*.rpm=38;5;9:*.jar=38;5;9:*.war=38;5;9:*.ear=38;5;9:*.sar=38;5;9:*.rar=38;5;9:*.alz=38;5;9:*.ace=38;5;9:*.zoo=38;5;9:*.cpio=38;5;9:*.7z=38;5;9:*.rz=38;5;9:*.cab=38;5;9:*.jpg=38;5;13:*.jpeg=38;5;13:*.gif=38;5;13:*.bmp=38;5;13:*.pbm=38;5;13:*.pgm=38;5;13:*.ppm=38;5;13:*.tga=38;5;13:*.xbm=38;5;13:*.xpm=38;5;13:*.tif=38;5;13:*.tiff=38;5;13:*.png=38;5;13:*.svg=38;5;13:*.svgz=38;5;13:*.mng=38;5;13:*.pcx=38;5;13:*.mov=38;5;13:*.mpg=38;5;13:*.mpeg=38;5;13:*.m2v=38;5;13:*.mkv=38;5;13:*.webm=38;5;13:*.ogm=38;5;13:*.mp4=38;5;13:*.m4v=38;5;13:*.mp4v=38;5;13:*.vob=38;5;13:*.qt=38;5;13:*.nuv=38;5;13:*.wmv=38;5;13:*.asf=38;5;13:*.rm=38;5;13:*.rmvb=38;5;13:*.flc=38;5;13:*.avi=38;5;13:*.fli=38;5;13:*.flv=38;5;13:*.gl=38;5;13:*.dl=38;5;13:*.xcf=38;5;13:*.xwd=38;5;13:*.yuv=38;5;13:*.cgm=38;5;13:*.emf=38;5;13:*.axv=38;5;13:*.anx=38;5;13:*.ogv=38;5;13:*.ogx=38;5;13:*.aac=38;5;45:*.au=38;5;45:*.flac=38;5;45:*.mid=38;5;45:*.midi=38;5;45:*.mka=38;5;45:*.mp3=38;5;45:*.mpc=38;5;45:*.ogg=38;5;45:*.ra=38;5;45:*.wav=38;5;45:*.axa=38;5;45:*.oga=38;5;45:*.spx=38;5;45:*.xspf=38;5;45:
worker mem:0x12e1446 len:25 envp[14]: MAIL=/var/spool/mail/root
worker mem:0x12e1460 len:193 envp[15]: PATH=/root/.cargo/bin:/root/.cargo/bin:/usr/local/vim/bin:/usr/local/bin:/usr/loca/python3/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/usr/local/go/bin:/root/bin:/usr/local/topio/bin
worker mem:0x12e1522 len:21 envp[16]: MARKPATH=/root/.marks
worker mem:0x12e1538 len:27 envp[17]: PWD=/root/temp/setproctitle
worker mem:0x12e1554 len:16 envp[18]: LANG=zh_CN.UTF-8
worker mem:0x12e1565 len:38 envp[19]: PS1=\[\e[32;1m\][\u@\h \w]\$ \[\e[0m\]
worker mem:0x12e158c len:24 envp[20]: SELINUX_LEVEL_REQUESTED=
worker mem:0x12e15a5 len:22 envp[21]: HISTCONTROL=ignoredups
worker mem:0x12e15bc len:7 envp[22]: SHLVL=1
worker mem:0x12e15c4 len:10 envp[23]: HOME=/root
worker mem:0x12e15cf len:12 envp[24]: LOGNAME=root
worker mem:0x12e15dc len:47 envp[25]: SSH_CONNECTION=192.168.1.3 61311 192.168.1.4 22
worker mem:0x12e160c len:16 envp[26]: GOPATH=/root/.go
master mem:0x12e1565 len:38 envp[19]: PS1=\[\e[32;1m\][\u@\h \w]\$ \[\e[0m\]
master mem:0x12e158c len:24 envp[20]: SELINUX_LEVEL_REQUESTED=
master mem:0x12e15a5 len:22 envp[21]: HISTCONTROL=ignoredups
master mem:0x12e15bc len:7 envp[22]: SHLVL=1
worker mem:0x12e161d len:34 envp[27]: LESSOPEN=||/usr/bin/lesspipe.sh %s
worker mem:0x12e1640 len:49 envp[28]: ANDROID_NDK=/root/smaug/software/android-ndk-r16b
worker mem:0x12e1672 len:27 envp[29]: XDG_RUNTIME_DIR=/run/user/0
master mem:0x12e15c4 len:10 envp[23]: HOME=/root
master mem:0x12e15cf len:12 envp[24]: LOGNAME=root
master mem:0x12e15dc len:47 envp[25]: SSH_CONNECTION=192.168.1.3 61311 192.168.1.4 22
worker mem:0x12e168e len:8 envp[30]: _=./main
master mem:0x12e160c len:16 envp[26]: GOPATH=/root/.go
master mem:0x12e161d len:34 envp[27]: LESSOPEN=||/usr/bin/lesspipe.sh %s
master mem:0x12e1640 len:49 envp[28]: ANDROID_NDK=/root/smaug/software/android-ndk-r16b
master mem:0x12e1672 len:27 envp[29]: XDG_RUNTIME_DIR=/run/user/0
master mem:0x12e168e len:8 envp[30]: _=./main

可以看到上述的命令行参数以及环境变量在父子进程中都是正确的，查看一下进程名:

# ps -ef |grep setproc
root      2584 12289  0 16:38 pts/3    00:00:00 setproctitle: master
root      2585  2584  0 16:38 pts/3    00:00:00 setproctitle: worker
root      2590 20422  0 16:38 pts/1    00:00:00 grep --color=auto setproc

扩展

上述代码可以完美的修改进程名，但是如果你使用查看进程信息可能还会看到旧的进程名：

# ps -ef |grep setproc
root      2584 12289  0 16:38 pts/3    00:00:00 setproctitle: master
root      2585  2584  0 16:38 pts/3    00:00:00 setproctitle: worker
root      2670 20422  0 16:39 pts/1    00:00:00 grep --color=auto setproc

# cat /proc/2585/status |grep Name
Name:main

# cat /proc/2584/status |grep Name
Name:main

这个时候可以结合 prctl 使用：

1	prctl(PR_SET_NAME, new_name);

具体可以查看相关资料。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-10-25 于杭州
By 史矛革

epoll 入门例子 tcp server/client

2020-09-26T03:50:58.000Z

复习一下

上一篇博文 epoll原理深入分析详细分析了 epoll 底层的实现原理，如果对 epoll 原理有模糊的建议先看一下这篇文章。那么本文就开始用 epoll 实现一个简单的 tcp server/client。

本文基于我的 github: https://github.com/smaugx/epoll_examples。

epoll 实现范式

# create listen socket
int listenfd = ::socket();

# bind to local port and ip
int r = ::bind();


# create epoll instance and get an epoll-fd
int epollfd = epoll_create(1);
 
# add listenfd to epoll instance
int r = epoll_ctl(..., listenfd, ...);


# begin epoll_wait, wait for ready socket

struct epoll_event* alive_events =  static_cast(calloc(kMaxEvents, sizeof(epoll_event)));

while (true) {
            int num = epoll_wait(epollfd, alive_events, kMaxEvents, kEpollWaitTime);
    
            for (int i = 0; i < num; ++i) {
            int fd = alive_events[i].data.fd;
            int events = alive_events[i].events;

            if ( (events & EPOLLERR) || (events & EPOLLHUP) ) {
                std::cout << "epoll_wait error!" << std::endl;
                // An error has occured on this fd, or the socket is not ready for reading (why were we notified then?).
                ::close(fd);
            } else  if (events & EPOLLRDHUP) {
                // Stream socket peer closed connection, or shut down writing half of connection.
                // more inportant, We still to handle disconnection when read()/recv() return 0 or -1 just to be sure.
                std::cout << "fd:" << fd << " closed EPOLLRDHUP!" << std::endl;
                // close fd and epoll will remove it
                ::close(fd);
            } else if ( events & EPOLLIN ) {
                std::cout << "epollin" << std::endl;
                if (fd == handle_) {
                    // listen fd coming connections
                    OnSocketAccept();
                } else {
                    // other fd read event coming, meaning data coming
                    OnSocketRead(fd);
                }
            } else if ( events & EPOLLOUT ) {
                std::cout << "epollout" << std::endl;
                // write event for fd (not including listen-fd), meaning send buffer is available for big files
                OnSocketWrite(fd);
            } else {
                std::cout << "unknow epoll event!" << std::endl;
            }
        } // end for (int i = 0; ...
    
}

epoll 编程基本是按照上面的范式进行的，这里要注意的是上面的反应的只是单进程或者单线程的情况。

如果涉及到多线程或者多进程，那么通常来说会在 listen() 创建完成之后，创建多线程或者多进程，然后再操作 epoll.

int listenfd = ::socket();


...

int p = fork() # 多进程 或者多线程创建

int r = epoll_ctl(..., listenfd, ...);

...

while(true) {
int num = epoll_wait(epollfd, alive_events, kMaxEvents, kEpollWaitTime);
...
}

同理，多线程版本也是一样，把上面的 fork() 替换成 thread 创建即可。

也就是 listenfd 被添加到了多个进程或者多个线程中，提高吞吐量。这就是基本的 epoll 多进程或者多线程编程范式。

但本文就先讨论单进程（单线程）版本的 epoll 实现。

epoll tcp server

先上代码：

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

#include 
#include 
#include 
#include 
#include 


namespace mux {

namespace transport {

static const uint32_t kEpollWaitTime = 10; // epoll wait timeout 10 ms
static const uint32_t kMaxEvents = 100;    // epoll wait return max size


// packet of send/recv binary content
typedef struct Packet {
public:
    Packet()
        : msg { "" } {}
    Packet(const std::string& msg)
        : msg { msg } {}
    Packet(int fd, const std::string& msg)
        : fd(fd),
          msg(msg) {}

    int fd { -1 };     // meaning socket
    std::string msg;   // real binary content
} Packet;

typedef std::shared_ptr PacketPtr;

// callback when packet received
using callback_recv_t = std::function<void(const PacketPtr& data)>;



// base class of EpollTcpServer, focus on Start(), Stop(), SendData(), RegisterOnRecvCallback()...
class EpollTcpBase {
public:
    EpollTcpBase()                                     = default;
    EpollTcpBase(const EpollTcpBase& other)            = delete;
    EpollTcpBase& operator=(const EpollTcpBase& other) = delete;
    EpollTcpBase(EpollTcpBase&& other)                 = delete;
    EpollTcpBase& operator=(EpollTcpBase&& other)      = delete;
    virtual ~EpollTcpBase()                            = default;

public:
    virtual bool Start() = 0;
    virtual bool Stop()  = 0;
    virtual int32_t SendData(const PacketPtr& data) = 0;
    virtual void RegisterOnRecvCallback(callback_recv_t callback) = 0;
    virtual void UnRegisterOnRecvCallback() = 0;
};

using ETBase = EpollTcpBase;

typedef std::shared_ptr ETBasePtr;

// the implementation of Epoll Tcp Server
class EpollTcpServer : public ETBase {
public:
    EpollTcpServer()                                       = default;
    EpollTcpServer(const EpollTcpServer& other)            = delete;
    EpollTcpServer& operator=(const EpollTcpServer& other) = delete;
    EpollTcpServer(EpollTcpServer&& other)                 = delete;
    EpollTcpServer& operator=(EpollTcpServer&& other)      = delete;
    ~EpollTcpServer() override;

    // the local ip and port of tcp server
    EpollTcpServer(const std::string& local_ip, uint16_t local_port);

public:
    // start tcp server
    bool Start() override;
    // stop tcp server
    bool Stop() override;
    // send packet
    int32_t SendData(const PacketPtr& data) override;
    // register a callback when packet received
    void RegisterOnRecvCallback(callback_recv_t callback) override;
    void UnRegisterOnRecvCallback() override;

protected:
    // create epoll instance using epoll_create and return a fd of epoll
    int32_t CreateEpoll();
    // create a socket fd using api socket()
    int32_t CreateSocket();
    // set socket noblock
    int32_t MakeSocketNonBlock(int32_t fd);
    // listen()
    int32_t Listen(int32_t listenfd);
    // add/modify/remove a item(socket/fd) in epoll instance(rbtree), for this example, just add a socket to epoll rbtree
    int32_t UpdateEpollEvents(int efd, int op, int fd, int events);

    // handle tcp accept event
    void OnSocketAccept();
    // handle tcp socket readable event(read())
    void OnSocketRead(int32_t fd);
    // handle tcp socket writeable event(write())
    void OnSocketWrite(int32_t fd);
    // one loop per thread, call epoll_wait and return ready socket(accept,readable,writeable,error...)
    void EpollLoop();


private:
    std::string local_ip_; // tcp local ip
    uint16_t local_port_ { 0 }; // tcp bind local port
    int32_t handle_ { -1 }; // listenfd
    int32_t efd_ { -1 }; // epoll fd
    std::shared_ptr<std::thread> th_loop_ { nullptr }; // one loop per thread(call epoll_wait in loop)
    bool loop_flag_ { true }; // if loop_flag_ is false, then exit the epoll loop
    callback_recv_t recv_callback_ { nullptr }; // callback when received
};

using ETServer = EpollTcpServer;

typedef std::shared_ptr ETServerPtr;


EpollTcpServer::EpollTcpServer(const std::string& local_ip, uint16_t local_port)
    : local_ip_ { local_ip },
      local_port_ { local_port } {
}

EpollTcpServer::~EpollTcpServer() {
    Stop();
}

bool EpollTcpServer::Start() {
    // create epoll instance
    if (CreateEpoll() < 0) {
        return false;
    }
    // create socket and bind
    int listenfd = CreateSocket();
    if (listenfd < 0) {
        return false;
    }
    // set listen socket noblock
    int mr = MakeSocketNonBlock(listenfd);
    if (mr < 0) {
        return false;
    }

    // call listen()
    int lr = Listen(listenfd);
    if (lr < 0) {
        return false;
    }
    std::cout << "EpollTcpServer Init success!" << std::endl;
    handle_ = listenfd;

    // add listen socket to epoll instance, and focus on event EPOLLIN and EPOLLOUT, actually EPOLLIN is enough
    int er = UpdateEpollEvents(efd_, EPOLL_CTL_ADD, handle_, EPOLLIN | EPOLLET);
    if (er < 0) {
        // if something goes wrong, close listen socket and return false
        ::close(handle_);
        return false;
    }

    assert(!th_loop_);

    // the implementation of one loop per thread: create a thread to loop epoll
    th_loop_ = std::make_shared<std::thread>(&EpollTcpServer::EpollLoop, this);
    if (!th_loop_) {
        return false;
    }
    // detach the thread(using loop_flag_ to control the start/stop of loop)
    th_loop_->detach();

    return true;
}


// stop epoll tcp server and release epoll
bool EpollTcpServer::Stop() {
    // set loop_flag_ false to stop epoll loop
    loop_flag_ = false;
    ::close(handle_);
    ::close(efd_);
    std::cout << "stop epoll!" << std::endl;
    UnRegisterOnRecvCallback();
    return true;
}

int32_t EpollTcpServer::CreateEpoll() {
    // the basic epoll api of create a epoll instance
    int epollfd = epoll_create(1);
    if (epollfd < 0) {
        // if something goes wrong, return -1
        std::cout << "epoll_create failed!" << std::endl;
        return -1;
    }
    efd_ = epollfd;
    return epollfd;
}

int32_t EpollTcpServer::CreateSocket() {
    // create tcp socket
    int listenfd = ::socket(AF_INET, SOCK_STREAM, 0);
    if (listenfd < 0) {
        std::cout << "create socket " << local_ip_ << ":" << local_port_ << " failed!" << std::endl;
        return -1;
    }

    struct sockaddr_in addr;
    memset(&addr, 0, sizeof(addr));
    addr.sin_family = AF_INET;
    addr.sin_port = htons(local_port_);
    addr.sin_addr.s_addr  = inet_addr(local_ip_.c_str());

    // bind to local ip and local port
    int r = ::bind(listenfd, (struct sockaddr*)&addr, sizeof(struct sockaddr));
    if (r != 0) {
        std::cout << "bind socket " << local_ip_ << ":" << local_port_ << " failed!" << std::endl;
        ::close(listenfd);
        return -1;
    }
    std::cout << "create and bind socket " << local_ip_ << ":" << local_port_ << " success!" << std::endl;
    return listenfd;
}

// set noblock fd
int32_t EpollTcpServer::MakeSocketNonBlock(int32_t fd) {
    int flags = fcntl(fd, F_GETFL, 0);
    if (flags < 0) {
        std::cout << "fcntl failed!" << std::endl;
        return -1;
    }
    int r = fcntl(fd, F_SETFL, flags | O_NONBLOCK);
    if (r < 0) {
        std::cout << "fcntl failed!" << std::endl;
        return -1;
    }
    return 0;
}

// call listen() api and set listen queue size using SOMAXCONN
int32_t EpollTcpServer::Listen(int32_t listenfd) {
    int r = ::listen(listenfd, SOMAXCONN);
    if ( r < 0) {
        std::cout << "listen failed!" << std::endl;
        return -1;
    }
    return 0;
}

// add/modify/remove a item(socket/fd) in epoll instance(rbtree), for this example, just add a socket to epoll rbtree
int32_t EpollTcpServer::UpdateEpollEvents(int efd, int op, int fd, int events) {
    struct epoll_event ev;
    memset(&ev, 0, sizeof(ev));
    ev.events = events;
    ev.data.fd = fd; // ev.data is a enum
    fprintf(stdout,"%s fd %d events read %d write %d\n", op == EPOLL_CTL_MOD ? "mod" : "add", fd, ev.events & EPOLLIN, ev.events & EPOLLOUT);
    int r = epoll_ctl(efd, op, fd, &ev);
    if (r < 0) {
        std::cout << "epoll_ctl failed!" << std::endl;
        return -1;
    }
    return 0;
}

// handle accept event
void EpollTcpServer::OnSocketAccept() {
    // epoll working on et mode, must read all coming data, so use a while loop here
    while (true) {
        struct sockaddr_in in_addr;
        socklen_t in_len = sizeof(in_addr);

        // accept a new connection and get a new socket
        int cli_fd = accept(handle_, (struct sockaddr*)&in_addr, &in_len);
        if (cli_fd == -1) {
            if ( (errno == EAGAIN) || (errno == EWOULDBLOCK) ) {
                // read all accept finished(epoll et mode only trigger one time,so must read all data in listen socket)
                std::cout << "accept all coming connections!" << std::endl;
                break;
            } else {
                std::cout << "accept error!" << std::endl;
                continue;
            }
        }

        sockaddr_in peer;
        socklen_t p_len = sizeof(peer);
        // get client ip and port
        int r = getpeername(cli_fd, (struct sockaddr*)&peer, &p_len);
        if (r < 0) {
            std::cout << "getpeername error!" << std::endl;
            continue;
        }
        std::cout << "accpet connection from " << inet_ntoa(in_addr.sin_addr) << std::endl;
        int mr = MakeSocketNonBlock(cli_fd);
        if (mr < 0) {
            ::close(cli_fd);
            continue;
        }

        //  add this new socket to epoll instance, and focus on EPOLLIN and EPOLLOUT and EPOLLRDHUP event
        int er = UpdateEpollEvents(efd_, EPOLL_CTL_ADD, cli_fd, EPOLLIN | EPOLLRDHUP | EPOLLET);
        if (er < 0 ) {
            // if something goes wrong, close this new socket
            ::close(cli_fd);
            continue;
        }
    }
}

// register a callback when packet received
void EpollTcpServer::RegisterOnRecvCallback(callback_recv_t callback) {
    assert(!recv_callback_);
    recv_callback_ = callback;
}

void EpollTcpServer::UnRegisterOnRecvCallback() {
    assert(recv_callback_);
    recv_callback_ = nullptr;
}

// handle read events on fd
void EpollTcpServer::OnSocketRead(int32_t fd) {
    char read_buf[4096];
    bzero(read_buf, sizeof(read_buf));
    int n = -1;
    // epoll working on et mode, must read all data
    while ( (n = ::read(fd, read_buf, sizeof(read_buf))) > 0) {
        // callback for recv
        std::cout << "fd: " << fd <<  " recv: " << read_buf << std::endl;
        std::string msg(read_buf, n);
        // create a recv packet
        PacketPtr data = std::make_shared(fd, msg);
        if (recv_callback_) {
            // handle recv packet
            recv_callback_(data);
        }
    }
    if (n == -1) {
        if (errno == EAGAIN || errno == EWOULDBLOCK) {
            // read all data finished
            return;
        }
        // something goes wrong for this fd, should close it
        ::close(fd);
        return;
    }
    if (n == 0) {
        // this may happen when client close socket. EPOLLRDHUP usually handle this, but just make sure; should close this fd
        ::close(fd);
        return;
    }
}

// handle write events on fd (usually happens when sending big files)
void EpollTcpServer::OnSocketWrite(int32_t fd) {
    // TODO(smaugx) not care for now
    std::cout << "fd: " << fd << " writeable!" << std::endl;
}

// send packet
int32_t EpollTcpServer::SendData(const PacketPtr& data) {
    if (data->fd == -1) {
        return -1;
    }
    // send packet on fd
    int r = ::write(data->fd, data->msg.data(), data->msg.size());
    if (r == -1) {
        if (errno == EAGAIN || errno == EWOULDBLOCK) {
            return -1;
        }
        // error happend
        ::close(data->fd);
        std::cout << "fd: " << data->fd << " write error, close it!" << std::endl;
        return -1;
    }
    std::cout << "fd: " << data->fd << " write size: " << r << " ok!" << std::endl;
    return r;
}

// one loop per thread, call epoll_wait and handle all coming events
void EpollTcpServer::EpollLoop() {
    // request some memory, if events ready, socket events will copy to this memory from kernel
    struct epoll_event* alive_events =  static_cast(calloc(kMaxEvents, sizeof(epoll_event)));
    if (!alive_events) {
        std::cout << "calloc memory failed for epoll_events!" << std::endl;
        return;
    }
    // if loop_flag_ is false, will exit this loop
    while (loop_flag_) {
        // call epoll_wait and return ready socket
        int num = epoll_wait(efd_, alive_events, kMaxEvents, kEpollWaitTime);

        for (int i = 0; i < num; ++i) {
            // get fd
            int fd = alive_events[i].data.fd;
            // get events(readable/writeable/error)
            int events = alive_events[i].events;

            if ( (events & EPOLLERR) || (events & EPOLLHUP) ) {
                std::cout << "epoll_wait error!" << std::endl;
                // An error has occured on this fd, or the socket is not ready for reading (why were we notified then?).
                ::close(fd);
            } else  if (events & EPOLLRDHUP) {
                // Stream socket peer closed connection, or shut down writing half of connection.
                // more inportant, We still to handle disconnection when read()/recv() return 0 or -1 just to be sure.
                std::cout << "fd:" << fd << " closed EPOLLRDHUP!" << std::endl;
                // close fd and epoll will remove it
                ::close(fd);
            } else if ( events & EPOLLIN ) {
                std::cout << "epollin" << std::endl;
                if (fd == handle_) {
                    // listen fd coming connections
                    OnSocketAccept();
                } else {
                    // other fd read event coming, meaning data coming
                    OnSocketRead(fd);
                }
            } else if ( events & EPOLLOUT ) {
                std::cout << "epollout" << std::endl;
                // write event for fd (not including listen-fd), meaning send buffer is available for big files
                OnSocketWrite(fd);
            } else {
                std::cout << "unknow epoll event!" << std::endl;
            }
        } // end for (int i = 0; ...

    } // end while (loop_flag_)

    free(alive_events);
}

} // end namespace transport
} // end namespace mux


using namespace mux;
using namespace transport;

int main(int argc, char* argv[]) {
    std::string local_ip {"127.0.0.1"};
    uint16_t local_port { 6666 };
    if (argc >= 2) {
        local_ip = std::string(argv[1]);
    }
    if (argc >= 3) {
        local_port = std::atoi(argv[2]);
    }
    // create a epoll tcp server
    auto epoll_server = std::make_shared(local_ip, local_port);
    if (!epoll_server) {
        std::cout << "tcp_server create faield!" << std::endl;
        exit(-1);
    }

    // recv callback in lambda mode, you can set your own callback here
    auto recv_call = [&](const PacketPtr& data) -> void {
        // just echo packet
        epoll_server->SendData(data);
        return;
    };

    // register recv callback to epoll tcp server
    epoll_server->RegisterOnRecvCallback(recv_call);

    // start the epoll tcp server
    if (!epoll_server->Start()) {
        std::cout << "tcp_server start failed!" << std::endl;
        exit(1);
    }
    std::cout << "############tcp_server started!################" << std::endl;

    // block here
    while (true) {
        std::this_thread::sleep_for(std::chrono::seconds(1));
    }

    epoll_server->Stop();

    return 0;
}

代码看起来有点多，不过仔细分析下，其实也比较容易掌握。

核心的类是 EpollTcpServer，创建一个 EpllTcpServer 实例：

1	auto epoll_server = std::make_shared(local_ip, local_port);

注册一个收包处理回调函数：


# 这里直接注册一个 echo 函数（可以替换成其他的处理函数）
auto recv_call = [&](const PacketPtr& data) -> void {
    epoll_server->SendData(data);
    return;
};

epoll_server->RegisterOnRecvCallback(recv_call);

启动 tcp server:

1	epoll_server->Start();

是不是很简单？至于 Start() 函数内部，其实实现的就是 epoll 编程范式的细节。

代码细节应该比较好理解的，可以参考 https://github.com/smaugx/epoll_examples/blob/master/README.md

epoll tcp client

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

#include 
#include 
#include 
#include 
#include 

// actually no need to implement a tcp client using epoll


namespace mux {

namespace transport {

static const uint32_t kEpollWaitTime = 10; // epoll wait timeout 10 ms
static const uint32_t kMaxEvents = 100;    // epoll wait return max size

typedef struct Packet {
public:
    Packet()
        : msg { "" } {}
    Packet(const std::string& msg)
        : msg { msg } {}
    Packet(int fd, const std::string& msg)
        : fd(fd),
          msg(msg) {}

    int fd { -1 };     // meaning socket
    std::string msg;   // real binary content
} Packet;

typedef std::shared_ptr PacketPtr;

// callback when packet received
using callback_recv_t = std::function<void(const PacketPtr& data)>;

// base class of EpollTcpServer, focus on Start(), Stop(), SendData(), RegisterOnRecvCallback()...
class EpollTcpBase {
public:
    EpollTcpBase()                                     = default;
    EpollTcpBase(const EpollTcpBase& other)            = delete;
    EpollTcpBase& operator=(const EpollTcpBase& other) = delete;
    EpollTcpBase(EpollTcpBase&& other)                 = delete;
    EpollTcpBase& operator=(EpollTcpBase&& other)      = delete;
    virtual ~EpollTcpBase()                            = default;

public:
    virtual bool Start() = 0;
    virtual bool Stop()  = 0;
    virtual int32_t SendData(const PacketPtr& data) = 0;
    virtual void RegisterOnRecvCallback(callback_recv_t callback) = 0;
    virtual void UnRegisterOnRecvCallback() = 0;
};

using ETBase = EpollTcpBase;

typedef std::shared_ptr ETBasePtr;



// the implementation of Epoll Tcp client
class EpollTcpClient : public ETBase {
public:
    EpollTcpClient()                                       = default;
    EpollTcpClient(const EpollTcpClient& other)            = delete;
    EpollTcpClient& operator=(const EpollTcpClient& other) = delete;
    EpollTcpClient(EpollTcpClient&& other)                 = delete;
    EpollTcpClient& operator=(EpollTcpClient&& other)      = delete;
    ~EpollTcpClient() override;

    // the server ip and port
    EpollTcpClient(const std::string& server_ip, uint16_t server_port);

public:
    // start tcp client
    bool Start() override;
    // stop tcp client
    bool Stop() override;
    // send packet
    int32_t SendData(const PacketPtr& data) override;
    // register a callback when packet received
    void RegisterOnRecvCallback(callback_recv_t callback) override;
    void UnRegisterOnRecvCallback() override;

protected:
    // create epoll instance using epoll_create and return a fd of epoll
    int32_t CreateEpoll();
    // create a socket fd using api socket()
    int32_t CreateSocket();
    // connect to server
    int32_t Connect(int32_t listenfd);
    // add/modify/remove a item(socket/fd) in epoll instance(rbtree), for this example, just add a socket to epoll rbtree
    int32_t UpdateEpollEvents(int efd, int op, int fd, int events);
    // handle tcp socket readable event(read())
    void OnSocketRead(int32_t fd);
    // handle tcp socket writeable event(write())
    void OnSocketWrite(int32_t fd);
    // one loop per thread, call epoll_wait and return ready socket(readable,writeable,error...)
    void EpollLoop();


private:
    std::string server_ip_; // tcp server ip
    uint16_t server_port_ { 0 }; // tcp server port
    int32_t handle_ { -1 }; // client fd
    int32_t efd_ { -1 }; // epoll fd
    std::shared_ptr<std::thread> th_loop_ { nullptr }; // one loop per thread(call epoll_wait in loop)
    bool loop_flag_ { true }; // if loop_flag_ is false, then exit the epoll loop
    callback_recv_t recv_callback_ { nullptr }; // callback when received
};

using ETClient = EpollTcpClient;

typedef std::shared_ptr ETClientPtr;



EpollTcpClient::EpollTcpClient(const std::string& server_ip, uint16_t server_port)
    : server_ip_ { server_ip },
      server_port_ { server_port } {
}

EpollTcpClient::~EpollTcpClient() {
    Stop();
}

bool EpollTcpClient::Start() {
    // create epoll instance
    if (CreateEpoll() < 0) {
        return false;
    }
    // create socket and bind
    int cli_fd  = CreateSocket();
    if (cli_fd < 0) {
        return false;
    }

    // connect to server
    int lr = Connect(cli_fd);
    if (lr < 0) {
        return false;
    }
    std::cout << "EpollTcpClient Init success!" << std::endl;
    handle_ = cli_fd;

    // after connected successfully, add this socket to epoll instance, and focus on EPOLLIN and EPOLLOUT event
    int er = UpdateEpollEvents(efd_, EPOLL_CTL_ADD, handle_, EPOLLIN | EPOLLET);
    if (er < 0) {
        // if something goes wrong, close listen socket and return false
        ::close(handle_);
        return false;
    }

    assert(!th_loop_);

    // the implementation of one loop per thread: create a thread to loop epoll
    th_loop_ = std::make_shared<std::thread>(&EpollTcpClient::EpollLoop, this);
    if (!th_loop_) {
        return false;
    }
    // detach the thread(using loop_flag_ to control the start/stop of loop)
    th_loop_->detach();

    return true;
}


// stop epoll tcp client and release epoll
bool EpollTcpClient::Stop() {
    loop_flag_ = false;
    ::close(handle_);
    ::close(efd_);
    std::cout << "stop epoll!" << std::endl;
    UnRegisterOnRecvCallback();
    return true;
}

int32_t EpollTcpClient::CreateEpoll() {
    // the basic epoll api of create a epoll instance
    int epollfd = epoll_create(1);
    if (epollfd < 0) {
        // if something goes wrong, return -1
        std::cout << "epoll_create failed!" << std::endl;
        return -1;
    }
    efd_ = epollfd;
    return epollfd;
}

int32_t EpollTcpClient::CreateSocket() {
    // create tcp socket
    int cli_fd = ::socket(AF_INET, SOCK_STREAM, 0);
    if (cli_fd < 0) {
        std::cout << "create socket failed!" << std::endl;
        return -1;
    }

    return cli_fd;
}

// connect to tcp server
int32_t EpollTcpClient::Connect(int32_t cli_fd) {
    struct sockaddr_in addr;  // server info
    memset(&addr, 0, sizeof(addr));
    addr.sin_family = AF_INET;
    addr.sin_port = htons(server_port_);
    addr.sin_addr.s_addr  = inet_addr(server_ip_.c_str());

    int r = ::connect(cli_fd, (struct sockaddr*)&addr, sizeof(addr));
    if ( r < 0) {
        std::cout << "connect failed! r=" << r << " errno:" << errno << std::endl;
        return -1;
    }
    return 0;
}

// add/modify/remove a item(socket/fd) in epoll instance(rbtree), for this example, just add a socket to epoll rbtree
int32_t EpollTcpClient::UpdateEpollEvents(int efd, int op, int fd, int events) {
    struct epoll_event ev;
    memset(&ev, 0, sizeof(ev));
    ev.events = events;
    ev.data.fd = fd;
    fprintf(stdout,"%s fd %d events read %d write %d\n", op == EPOLL_CTL_MOD ? "mod" : "add", fd, ev.events & EPOLLIN, ev.events & EPOLLOUT);
    int r = epoll_ctl(efd, op, fd, &ev);
    if (r < 0) {
        std::cout << "epoll_ctl failed!" << std::endl;
        return -1;
    }
    return 0;
}

// register a callback when packet received
void EpollTcpClient::RegisterOnRecvCallback(callback_recv_t callback) {
    assert(!recv_callback_);
    recv_callback_ = callback;
}

void EpollTcpClient::UnRegisterOnRecvCallback() {
    assert(recv_callback_);
    recv_callback_ = nullptr;
}

// handle read events on fd
void EpollTcpClient::OnSocketRead(int32_t fd) {
    char read_buf[4096];
    bzero(read_buf, sizeof(read_buf));
    int n = -1;
    while ( (n = ::read(fd, read_buf, sizeof(read_buf))) > 0) {
        // callback for recv
        std::string msg(read_buf, n);
        PacketPtr data = std::make_shared(fd, msg);
        if (recv_callback_) {
            // handle recv packet
            recv_callback_(data);
        }
    }
    if (n == -1) {
        if (errno == EAGAIN || errno == EWOULDBLOCK) {
            // read finished
            return;
        }
        // something goes wrong for this fd, should close it
        ::close(fd);
        return;
    }
    if (n == 0) {
        // this may happen when client close socket. EPOLLRDHUP usually handle this, but just make sure; should close this fd
        ::close(fd);
        return;
    }
}

// handle write events on fd (usually happens when sending big files)
void EpollTcpClient::OnSocketWrite(int32_t fd) {
    std::cout << "fd: " << fd << " writeable!" << std::endl;
}

int32_t EpollTcpClient::SendData(const PacketPtr& data) {
    int r = ::write(handle_, data->msg.data(), data->msg.size());
    if (r == -1) {
        if (errno == EAGAIN || errno == EWOULDBLOCK) {
            return -1;
        }
        // error happend
        ::close(handle_);
        std::cout << "fd: " << handle_ << " write error, close it!" << std::endl;
        return -1;
    }
    return r;
}

// one loop per thread, call epoll_wait and handle all coming events
void EpollTcpClient::EpollLoop() {
    // request some memory, if events ready, socket events will copy to this memory from kernel
    struct epoll_event* alive_events =  static_cast(calloc(kMaxEvents, sizeof(epoll_event)));
    if (!alive_events) {
        std::cout << "calloc memory failed for epoll_events!" << std::endl;
        return;
    }
    while (loop_flag_) {
        int num = epoll_wait(efd_, alive_events, kMaxEvents, kEpollWaitTime);

        for (int i = 0; i < num; ++i) {
            int fd = alive_events[i].data.fd;
            int events = alive_events[i].events;

            if ( (events & EPOLLERR) || (events & EPOLLHUP) ) {
                std::cout << "epoll_wait error!" << std::endl;
                // An error has occured on this fd, or the socket is not ready for reading (why were we notified then?).
                ::close(fd);
            } else  if (events & EPOLLRDHUP) {
                // Stream socket peer closed connection, or shut down writing half of connection.
                // more inportant, We still to handle disconnection when read()/recv() return 0 or -1 just to be sure.
                std::cout << "fd:" << fd << " closed EPOLLRDHUP!" << std::endl;
                // close fd and epoll will remove it
                ::close(fd);
            } else if ( events & EPOLLIN ) {
                // other fd read event coming, meaning data coming
                OnSocketRead(fd);
            } else if ( events & EPOLLOUT ) {
                // write event for fd (not including listen-fd), meaning send buffer is available for big files
                OnSocketWrite(fd);
            } else {
                std::cout << "unknow epoll event!" << std::endl;
            }
        } // end for (int i = 0; ...

    } // end while (loop_flag_)
    free(alive_events);
}


} // end namespace transport
} // end namespace mux


using namespace mux;
using namespace mux::transport;

int main(int argc, char* argv[]) {
    std::string server_ip {"127.0.0.1"};
    uint16_t server_port { 6666 };
    if (argc >= 2) {
        server_ip = std::string(argv[1]);
    }
    if (argc >= 3) {
        server_port = std::atoi(argv[2]);
    }

    // create a tcp client
    auto tcp_client = std::make_shared(server_ip, server_port);
    if (!tcp_client) {
        std::cout << "tcp_client create faield!" << std::endl;
        exit(-1);
    }


    // recv callback in lambda mode, you can set your own callback here
    auto recv_call = [&](const transport::PacketPtr& data) -> void {
        // just print recv data to stdout
        std::cout << "recv: " << data->msg << std::endl;
        return;
    };

    // register recv callback to epoll tcp client
    tcp_client->RegisterOnRecvCallback(recv_call);

    // start the epoll tcp client
    if (!tcp_client->Start()) {
        std::cout << "tcp_client start failed!" << std::endl;
        exit(1);
    }
    std::cout << "############tcp_client started!################" << std::endl;

    std::string msg;
    while (true) {
        // read content from stdin
        std::cout << std::endl << "input:";
        std::getline(std::cin, msg);
        auto packet = std::make_shared(msg);
        tcp_client->SendData(packet);
        //std::this_thread::sleep_for(std::chrono::seconds(1));
    }

    tcp_client->Stop();

    return 0;
}

代码和 server 端代码基本上很类似，除了没有 accept() 的处理，这里就不分析了。

注意

上面的代码是基于 ET模式（边缘触发模式）实现的。

源代码可以直接在我的 github: https://github.com/smaugx/epoll_examples 找到；

或者有兴趣的话也可以直接看我的另外一个项目 https://github.com/smaugx/mux，基于 epoll 实现的高并发网络库。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-09-26 于杭州
By 史矛革

惊群效应

2020-09-26T03:23:58.000Z

前言

上一篇博文 Epoll原理深入分析在讲 accept 事件 的时候提到过 惊群效应，本文就分析一下惊群效应的原因以及解决方法。

惊群效应

什么是惊群

惊群效应就是多个进程（线程）阻塞等待同一件事情（资源）上，当事件发生（资源可用）时，操作系统可能会唤醒所有等待这个事件（资源）的进程（线程），但是最终却只有一个进程（线程）成功获取该事件（资源），而其他进程（线程）获取失败，只能重新阻塞等待事件（资源）可用，但是这就造成了额外的性能损失。这种现象就称为惊群效应。

如果细心的你可能会问，为什么操作系统要同时唤醒多个进程呢？只唤醒一个不行吗？这样不就没有这种性能损失了吗？

确实如此，操作系统也想只唤醒一个进程，但是它做不到啊，因为它也不知道该唤醒哪一个，只好把所有等待在这件事情（资源）的进程都一起唤醒了。

那有没有办法解决呢？当然有，我们后面再说。

惊群效应会造成多个进程白白唤醒而啥也做不了。那么唤醒进程损失了啥？这就涉及到进程上下文的概念。

惊群造成进程切换

进程上下文包括了进程的虚拟内存，栈，全局变量等用户空间的资源，还包括内核堆栈，寄存器等内核空间的状态。

所以进程上下文切换就首先需要保存用户态资源以及内核态资源，然后再去加载下一个进程，首先是加载了下一个进程的内核态，然后再去刷新进程的用户态空间。

然而 CPU 保存进程的用户态以及内核态资源，再去加载下一个进程的内核态和用户态是有代价的，也是耗时的，每次可能在几十纳秒到数微妙的时间，如果频繁发生进程切换，那么 CPU 将有大量的时间浪费在不断保存资源，加载资源，刷新资源等事情上，造成性能的浪费。

所以惊群效应会造成多个进程切换，造成性能损失。

惊群测试

为了直观的了解惊群效应是什么，我们采用 mux 项目当中的 echo_server 为例说明：

https://github.com/smaugx/mux/tree/master/demo/echo

编译命令详见项目说明文档。编译之后得到:

1	echo_server echo_client

我们在 echo_server 上开启 8 个 epoll 线程，观察当有新连接过来时是否这 8 个线程（epoll）都被唤醒了。

首先，运行：

1	./echo_server

再运行：

1	./echo_client （或者直接用 nc 127.0.0.1 6666）

我们观察的 echo_server 的 log 如下：

smaug@smaug-VirtualBox:~/workspace/mux/cbuild/bin/log$ tail -f echo_server.log  |grep accept


[basic_logger] [debug] eid:3 accept connection from 127.0.0.1:44251 time:2020.11.07 21:55:39.30
[basic_logger] [warning] eid:0 accept error, thundering herd happened
[basic_logger] [warning] eid:4 accept error, thundering herd happened
[basic_logger] [warning] eid:7 accept error, thundering herd happened
[basic_logger] [warning] eid:6 accept error, thundering herd happened
[basic_logger] [warning] eid:5 accept error, thundering herd happened
[basic_logger] [warning] eid:2 accept error, thundering herd happened
[basic_logger] [warning] eid:1 accept error, thundering herd happened

从上可以看到，我们总共有 8 个线程，其中只有 3号线程（epoll）被唤醒并且成功获取了 accept 事件，其他线程均 accept error。

多次测试会有不同的线程获取 accept 事件，但是只有一个能够成功获取，其余的全部失败。

为了更加直观的感受惊群造成的性能损失，我们做一个并发压测：

https://github.com/smaugx/mux/tree/master/demo/bench

编译上面的代码得到:

1	bench_client_accept bench_server

首先，启动：

1	./bench_server 127.0.0.1 10000 > /dev/null 2>&1 &

再启动：

1	./bench_client_accept 127.0.0.1 10000 30000 100 > /dev/null 2>&1 &

使用之前的博文一键采集cpu生成火焰图中的脚本采集火焰图如下：

可以看到途中 __libc_accept 占据了 31.7% 的 cpu，可以说是很高很高了。

由此可以看到惊群效应带来的性能损失有多少了吧。

惊群的类型

惊群的类型根据 socket 编程采用的不同方式有关。

传统 accept 惊群

传统的多进程 socket 编程，通常是 listen() 之后创建多个 worker 进程进行 accept，那么这里就会造成当有新连接过来时，多个 worker 同时去 accept 的情况，但最终只有一个 worker 进程成功 accept，其余的全部失败。

...
int s = socket();

bind(s);

listen(s);

...

for (i=0;i < 4;++i) {
    pid_t pid = fork();
    
    if (pid == 0) {
        # handle new connection
        accept();
        ...
    }
}

此种情况下的惊群称为 accept惊群效应，这在 linux 内核2.6以后就已经解决了，所以通常情况下讨论的惊群通常不是 accept惊群，而是 epoll惊群。

epoll 惊群

epoll 的编程模型一般有两种，我们姑且先分别称为 版本1 和 版本2 吧：

int listenfd = ::socket();


...
int epollfd = epoll_create(1);  # create epoll instance

int p = fork() # 多进程 或者多线程创建

int r = epoll_ctl(..., listenfd, ...);

...

while(true) {
int num = epoll_wait(epollfd, alive_events, kMaxEvents, kEpollWaitTime);
...
}

或者 fork() 在 epoll_create() 之前：


int listenfd = ::socket();


int p = fork() # 多进程 或者多线程创建

...
int epollfd = epoll_create(1);  # create epoll instance


int r = epoll_ctl(..., listenfd, ...);

...

while(true) {
int num = epoll_wait(epollfd, alive_events, kMaxEvents, kEpollWaitTime);
...
}

虽然上述两个版本均能实现多进程下的 epoll 编程，且都存在惊群效应，但版本1，也就是 fork() 在 epoll_create() 之后会造成事件混乱。

因为多个进程等待的是同一个 epollfd，就有可能造成同一个连接，worker A 获取了 accept 事件，成功建立了连接，但是后续的读事件被 worker B 获取了，造成连接和读写事件不匹配的情况。

所以通常，我们采用的是版本2，也就是 fork() 在 epoll_create() 之前，那么多个子进程其实是拥有各自不同的 epollfd，只不过对于 listenfd 而言，都被添加到了各个子进程的 epoll instance 中。

当 listenfd 上有事件触发时（listenfd 上的事件自然是 accept 事件），由于有多个子进程的 epoll instance 上都有 listenfd。

根据之前的博文 Epoll原理深入分析，当某个 fd 上有事件后，内核会把这个 fd 拷贝到 epoll 的就绪链表中，并且唤醒进程，通知应用层使用 epoll_wait 来处理事件。

所以由于多个子进程都把 listenfd 插入到了自己的 epoll instance 中，那么当 listenfd 上有事件触发时，自然这些子进程都会被唤醒了。但是最终只有一个子进程成功获取 accept 事件，其余的均失败。这就是惊群效应，详见上面的惊群效应测试。

解决方案

传统 accept 惊群

上面提到，针对传统 accept 惊群，linux 在内核 2.6 以后就解决了，内核通过引入一个 WQ_FLAG_EXCLUSIVE 标志位，告诉内核排他性的唤醒，即当 socket 上有事件触发时，对于等待队列中的进程，如果这些进程没有 WQ_FLAG_EXCLUSIVE 这个标志位，那么就通通唤醒，如果有 WQ_FLAG_EXCLUSIVE 这个标志位，那么唤醒第一个有这个标志位的进程则结束。这样，就解决了传统 accept 惊群问题。

epoll 惊群

epoll 的惊群有两种解决办法。

SO_REUSEPORT

linux 在内核 3.9 版本引入了一个 socket 选项 SO_REUSEPORT 用来支持多个进程监听在同一个端口上，内核负责事件触发的负载均衡。

创建一个 listen socket，需要 {protocol, src_addr, src_port} 三元组，3.9 版本之前，内核不允许出现多个进程使用同样的三元组创建 socket，会出现 Address already in use 错误。

但是，通过引入 SO_REUSEPORT 以及 SO_REUSEADDR，内核允许多个进程使用同样的三元组创建 socket，内核负责负载均衡。

ok，明白了这个原理，对于解决 epoll 的惊群问题，还需要稍微修改一下编程的模型，我们姑且成为 版本3 吧：


int p = fork() # 多进程 或者多线程创建

int listenfd = ::socket();

int ret = setsockopt(listenfd, SOL_SOCKET, SO_REUSEPORT,(const void *)&reuse , sizeof(int));

bind(listenfd);

...
int epollfd = epoll_create(1);  # create epoll instance


int r = epoll_ctl(..., listenfd, ...);

...

while(true) {
int num = epoll_wait(epollfd, alive_events, kMaxEvents, kEpollWaitTime);
...
}

可以对比一下和上面的编程模型有何不同，其实区别在创建 listenfd 被移到了 fork() 之后，程序启动即创建多个进程，然后进程内部再创建 listenfd 以及 epollfd，等等后续一系列操作。

另外要注意在 socket() 之后，使用 setsockopt() 设置了 SO_REUSEPORT 选项。

那么内核是如何做负载均衡的呢？

其实很简单，每一个新的连接都具有 socket 五元组 {protocol, src_addr, src_port, dst_addr, dst_port}，那么用这个五元组哈希一下映射到不同的进程，那么就唤醒这个进程。

SO_REUSEPORT 由于采用的是哈希的方式，内核并不知道多个等待进程是否空闲，但哈希的方式依然可能还会分配到这个进程，此时这个新的 accept 就可能会超时不被处理。

EPOLLEXCLUSIVE

linux 在内核 4.5 引入了 EPOLLEXCLUSIVE 这个标志位用来解决 epoll 的惊群。当我们使用 epoll_ctl() 往进程的 epoll instance 中插入一个需要监听的 fd 时，如果显示的传入 EPOLLEXCLUSIVE，那么内核会排他性的进行唤醒。

当然这里通常只需要对多个子进程共同监听的 listenfd 设置 EPOLLEXCLUSIVE 标志位。注意，这里的 epoll 编程模型要采用上面的版本2。

和解决传统 accept惊群 类似的方式，但是区别是内核可能会唤醒不只一个进程（虽然解决了不全部唤醒的问题），详见:

https://man7.org/linux/man-pages/man2/epoll_ctl.2.html

When a wakeup event occurs and multiple epoll file descriptors
are attached to the same target file using EPOLLEXCLUSIVE, one
or more of the epoll file descriptors will receive an event
with epoll_wait(2).  The default in this scenario (when
EPOLLEXCLUSIVE is not set) is for all epoll file descriptors
to receive an event.  EPOLLEXCLUSIVE is thus useful for avoid‐
ing thundering herd problems in certain scenarios.

注意上面的 one or more

The END

OK，到这里基本上把惊群效应的原理以及带来的问题，以及解决方法都讲清楚了，本来还想做一个加上了 EPOLLEXCLUSIVE，再采集一下火焰图和之前的进行一下对比，但是不知道是我的方式不对还是什么原因，加上 EPOLLEXCLUSIVE 标志后，连接压力测试就池池上不去，一直出现 connection timeout 的问题。

算了，这个以后再研究下为啥。

如果上文发现有什么不对的地方，欢迎指正。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-09-26 于杭州
By 史矛革

Epoll原理深入分析

2020-09-26T02:50:58.000Z

Epoll 的出现

想必能搜到这篇文章的，应该对 select/poll 有一些了解和认识，一般说 epoll 都会与 select/poll 进行一些对比，select、poll 和 epoll 都是一种 IO 多路复用机制。

select 的问题

select 的问题在于描述符的限制，能监控的文件描述符最大为 FD_SETSIZE，对于连接数很多的场景就无法满足；

另外select 还有一个问题是，每次调用 select 都需要从用户空间把描述符集合拷贝到内核空间，当描述符集合变大之后，用户空间和内核空间的内存拷贝会导致效率低下；

另外每次调用 select 都需要在内核线性遍历文件描述符的集合，当描述符增多，效率低下。

poll 的问题

由于 select 存在上面的问题，于是 poll 被提了出来，它能解决 select 对文件描述符数量有限制的问题，但是依然不能解决线性遍历以及用户空间和内核空间的低效数据拷贝问题。

epoll 是什么

select/poll 在互联网早期应该是没什么问题的，因为没有很多的互联网服务，也没有很多的客户端，但是随着互联网的发展，C10K 等问题的出现，select/poll 已经不能满足要求了，这个时候 epoll 上场了。

epoll 是 linux 内核 2.6 之后支持的，epoll 同 select/poll 一样，也是 IO 多路复用的一种机制，不过它避免了 select/poll 的缺点。下面详细讲解一下 epoll 反应堆的原理。

Epoll 反应堆

epoll 原理

要完整描述 epoll 的原理，需要涉及到内核、网卡、中断、软中断、协议栈、套接字等知识，本文尽量从比较全面的角度来分析 epoll 的原理。

上面其实讨论了 select/poll 几个缺点，针对这几个缺点，就需要解决以下几件事：

如何突破文件描述符数量的限制
如何避免用户态和内核态对文件描述符集合的拷贝
socket 就绪后，如何避免线性遍历文件描述符集合

针对第一点：如何突破文件描述符数量的限制，其实 poll 已经解决了，poll 使用的是链表的方式管理 socket 描述符，但问题是不够高效，如果有百万级别的连接需要管理，如何快速的插入和删除就变得很重要，于是 epoll 采用了红黑树的方式进行管理，这样能保证在添加 socket 和删除 socket 时，有 O(log(n)) 的复杂度。

针对第二点：如何避免用户态和内核态对文件描述符集合的拷贝，其实对于 select 来说，由于这个集合是保存在用户态的，所以当调用 select 时需要屡次的把这个描述符集合拷贝到内核空间。所以如果要解决这个问题，可以直接把这个集合放在内核空间进行管理。没错，epoll 就是这样做的，epoll 在内核空间创建了一颗红黑树，应用程序直接把需要监控的 socket 对象添加到这棵树上，直接从用户态到内核态了，而且后续也不需要再次拷贝了。

针对第三点：socket就绪后，如何避免内核线性遍历文件描述符集合，这个问题就会比较复杂，要完整理解就得涉及到内核收包到应用层的整个过程。这里先简单讲一下，与 select 不同，epoll 使用了一个双向链表来保存就绪的 socket，这样当活跃连接数不多的情况下，应用程序只需要遍历这个就绪链表就行了，而 select 没有这样一个用来存储就绪 socket 的东西，导致每次需要线性遍历所有socket，以确定是哪个或者哪几个 socket 就绪了。这里需要注意的是，这个就绪链表保存活跃链接，数量是较少的，也需要从内核空间拷贝到用户空间。

从上面 3 点可以看到 epoll 的几个特点：

程序在内核空间开辟一块缓存，用来管理 epoll 红黑树，高效添加和删除
红黑树位于内核空间，用来直接管理 socket，减少和用户态的交互
使用双向链表缓存就绪的 socket，数量较少
只需要拷贝这个双向链表到用户空间，再遍历就行，注意这里也需要拷贝，没有共享内存

比较精炼的话可能反而理解起来不容易，那么接下来深入分析一下 epoll 的原理。

epoll api

如果要深入分析 epoll 的原理，那么可能需要结合到 epoll 的 api 来进行阐述。epoll api 较少，使用起来相对比较简单。

#include 

# open an epoll file descriptor
# epoll_create1 可以理解为 epoll_create 的增强版（主要支持了 close-on-exec）
int epoll_create(int size);
int epoll_create1(int flags);

# 往 epoll instance 上添加、删除、更改一个节点（socket)
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

# wait for events on epoll instance
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);

# close and clear epoll instance
int close(int fd);

epoll 涉及到的 api 其实比较简单，掌握了这几个 api 其实就已经能够快速编写基于 epoll 的 tcp/udp socket 程序。可以参考：

https://github.com/smaugx/epoll_examples.git

接下来结合上面的几个 api 来详细分析以下背后的原理。

红黑树的创建和操作

前面提到，epoll 是一种 IO 多路复用机制，应用程序可以同时监控多个 socket，那么如何来存储和管理这些 socket 呢，epoll 使用的是一颗红黑树，可以随意的往这棵树上添加节点和删除节点(节点是一个结构体，包括 socket fd)。

我们使用：

1	int epoll_create(int size);

创建一个 epoll instance，实际上是创建了一个 eventpoll 实例，包含了红黑树以及一个双向链表。

可以直接查看 linux 源码：https://github.com/torvalds/linux/blob/master/fs/eventpoll.c#L181

/*
 * This structure is stored inside the "private_data" member of the file
 * structure and represents the main data structure for the eventpoll
 * interface.
 */
struct eventpoll {
    ...
    
/* List of ready file descriptors */
struct list_head rdllist;

/* RB tree root used to store monitored fd structs */
struct rb_root_cached rbr;

...
};

这个 eventpoll 实例是直接位于内核空间的。红黑树的叶子节点都是 epitem 结构体：

可以直接查看 linux 源码： https://github.com/torvalds/linux/blob/master/fs/eventpoll.c#L137

struct epitem {
   ...
   
union {
/* RB tree node links this structure to the eventpoll RB tree */
struct rb_node rbn;
/* Used to free the struct epitem */
struct rcu_head rcu;
};

/* List header used to link this structure to the eventpoll ready list */
struct list_head rdllink;

/* The file descriptor information this item refers to */
struct epoll_filefd ffd;

/* The "container" of this item */
struct eventpoll *ep;

/* List header used to link this item to the "struct file" items list */
struct list_head fllink;

/* wakeup_source used when EPOLLWAKEUP is set */
struct wakeup_source __rcu *ws;

/* The structure that describe the interested events and the source fd */
struct epoll_event event;

...
};

关于各项的解释，注释里已经说的比较清楚了。我们关心的应该是，当往这棵红黑树上添加、删除、修改节点的时候，我们从（用户态）程序代码中能操作的是一个 fd，即一个 socket 对应的 file descriptor，所以一个 epitem 实例与一个 socket fd 一一对应。

另外还需要注意到的是 rdllink 这个变量，这个指向了上一步创建的 evnetpoll 实例中的成员变量 rdllist，也就是那个就绪链表。这里很重要，注意留意，后面会讲到。

当然，我们还需要关注的是 event 这个变量，代表了我们针对这个 socket fd 关心的事件，比如 EPOLLIN、EPOLLOUT。

通过上述的讲解应该大致明白了，当我们使用 socket() 或者 accept() 得到一个 socket fd 时，我们添加到这棵红黑树上的是一个结构体，与这个 socket fd 一一对应。

那么修改和删除呢？

也是类似的过程，使用 ffd 变量作为红黑树比较的 key，能够快速的查找和插入。具体我们使用的是：

1	int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

如何触发事件

上面过程已经把我们关心的 socket 添加到 epoll instance 中了，那么当某个 socket 有事件触发时，epoll 是如何感知并通知（用户态）应用程序呢？

要完整的回答这个问题，会涉及到比较多的知识。不过为了了解 epoll 的原理，有一些知识需要提前了解。

内核收包路径

当一个包从网卡进来之后，是如何走到应用程序的呢？中间经过了哪些步骤呢？（本文会讲的比较简略一点）

包从硬件网卡（NIC) 上进来之后，会触发一个中断，告诉 cpu 网卡上有包过来了，需要处理，同时通过 DMA（direct memory access) 的方式把包存放到内存的某个地方，这块内存通常称为 ring buffer，是网卡驱动程序初始化时候分配的。

中断的原理学过微机原理的应该都知道，表示处理器接收到来自硬件或者软件的信号，提示产生了某件事情，需要处理。

当 cpu 收到这个中断后，会调用中断处理程序，这里的中断处理程序就是网卡驱动程序，因为网络硬件设备网卡需要驱动才能工作。网卡驱动会先关闭网卡上的中断请求，表示已经知晓网卡上有包进来的事情，同时也避免在处理过程中网卡再次触发中断，干扰或者降低处理性能。驱动程序启动软中断，继续处理数据包。

然后 CPU 激活 NAPI 子系统，由 NAPI 子系统来处理由网卡放到内存的数据包。经过一些列内核代码，最终数据包来到内核协议栈。内核协议栈也就是 IP 层以及传输层。经过 IP 层之后，数据包到达传输层，内核根据数据包里面的 {src_ip:src_port, dst_ip:dst_port} 找到相应的 socket。

为了性能，内核应该是有一个四元组和 socket 句柄的一一映射关系。（这里不太确定，不过原理应该是类似的）

然后把数据包放到这个 socket 的接收队列（接收缓冲区）中，准备通知应用程序，socket 就绪。

从 socket 到应用程序

上面比较简略的描述了一个数据包从网卡到内核协议栈，再到 socket 的接收缓冲区的步骤，描述的比较简略，不影响对 epoll 原理的理解，这里只需要有这个概念就行。

那么当 socket 就绪后，也就是数据包被放到 socket 的接收缓冲区后，如何通知应用程序呢？这里用到的是等待队列，也就是 wait queue。关于 wait queue 的应用，在 linux 内核代码里有很多，具体可以看一下 wait queue 的定义：

https://github.com/torvalds/linux/blob/master/include/linux/wait.h

当我们通过 socket() 以及 accept() 获取到一个 socket 对象时，这个 socket 对象到底有哪些东西呢？

可以直接参考 https://github.com/torvalds/linux/blob/master/include/linux/net.h#L113

/**
 *  struct socket - general BSD socket
 *  @state: socket state (%SS_CONNECTED, etc)
 *  @type: socket type (%SOCK_STREAM, etc)
 *  @flags: socket flags (%SOCK_NOSPACE, etc)
 *  @ops: protocol specific socket operations
 *  @file: File back pointer for gc
 *  @sk: internal networking protocol agnostic socket representation
 *  @wq: wait queue for several uses
 */
struct socket {
socket_statestate;

shorttype;

unsigned longflags;

struct file*file;
struct sock*sk;
const struct proto_ops*ops;

struct socket_wqwq;
};


struct socket_wq {
/* Note: wait MUST be first field of socket_wq */
wait_queue_head_twait;
struct fasync_struct*fasync_list;
unsigned longflags; /* %SOCKWQ_ASYNC_NOSPACE, etc */
struct rcu_headrcu;
} ____cacheline_aligned_in_smp;

可以看到，一个 socket 实例包含了一个 file 的指针，以及一个 socket_wq 变量。其中 socket_wq 中的 wait 表示等待队列，fasync_list 表示异步等待队列。

那么等待队列和异步等待队列中有什么呢？大致来说，等待队列和异步等待队列中存放的是关注这个 socket 上的事件的进程。区别是等待队列中的进程会处于阻塞状态，处于异步等待队列中的进程不会阻塞。

阻塞的概念学过操作系统的应该知道，阻塞是进程的一种状态，表示一个进程正在等待某件事情的发生而暂时停止运行；另外还有运行状态以及就绪状态。

当 socket 就绪后（接收缓冲区有数据），那么就会 wake up 等待队列中的进程，通知进程 socket 上有事件，可以开始处理了。

至此，一个数据包从网卡最终达到应用程序内部了。

再简单总结一下收包以及触发的过程：

包从网卡进来
一路经过各个子系统到达内核协议栈（传输层）
内核根据包的 {src_ip:src_port, dst_ip:dst_port} 找到 socket 对象（内核维护了一份四元组和 socket 对象的一一映射表）
数据包被放到 socket 对象的接收缓冲区
内核唤醒 socket 对象上的等待队列中的进程，通知 socket 事件
进程唤醒，处理 socket 事件（read/write)

epoll 的触发

上面其实是对内核收包以及事件触发的综合描述，涉及到 epoll 后，稍微有点差异。

上面其实提到了等待队列，每当我们创建一个 socket 后（无论是 socket()函数还是 accept() 函数)，socket 对象中会有一个进程的等待队列，表示某个或者某些进程在等待这个 socket 上的事件。

但是当我们往 epoll 红黑树上添加一个 epitem 节点（也就是一个 socket 对象，或者说一个 fd)后，实际上还会在这个 socket 对象的 wait queue 上注册一个 callback function，当这个 socket 上有事件发生后就会调用这个 callback function。这里与上面讲到的不太一样，并不会直接 wake up 一个等待进程，需要注意一下。

简单讲就是，这个 socket 在添加到这棵 epoll 树上时，会在这个 socket 的 wait queue 里注册一个回调函数，当有事件发生的时候再调用这个回调函数（而不是唤醒进程）。

下面简单贴一下 epoll 中关于注册这个回调函数的部分代码：

/*
 * This is the callback that is used to add our wait queue to the
 * target file wakeup lists.
 */
static void ep_ptable_queue_proc(struct file *file, wait_queue_head_t *whead,
 poll_table *pt)
{
struct epitem *epi = ep_item_from_epqueue(pt);
struct eppoll_entry *pwq;

if (epi->nwait >= 0 && (pwq = kmem_cache_alloc(pwq_cache, GFP_KERNEL))) {
init_waitqueue_func_entry(&pwq->wait, ep_poll_callback);   // 注册回调函数到等待队列上
pwq->whead = whead;
pwq->base = epi;
if (epi->event.events & EPOLLEXCLUSIVE)
add_wait_queue_exclusive(whead, &pwq->wait);
else
add_wait_queue(whead, &pwq->wait);
list_add_tail(&pwq->llink, &epi->pwqlist);
epi->nwait++;
} else {
/* We have to signal that an error occurred */
epi->nwait = -1;
}
}

那么这个回调函数做了什么事呢？

很简单，这个回调函数会把这个 socket 添加到创建 epoll instance 时对应的 eventpoll 实例中的就绪链表上，也就是 rdllist 上，并唤醒 epoll_wait，通知 epoll 有 socket 就绪，并且已经放到了就绪链表中，然后应用层就会来遍历这个就绪链表，并拷贝到用户空间，开始后续的事件处理（read/write)。

所以这里其实就体现出与 select 的不同， epoll 把就绪的 socket 给缓存了下来，放到一个双向链表中，这样当唤醒进程后，进程就知道哪些 socket 就绪了，而 select 是进程被唤醒后只知道有 socket 就绪，但是不知道哪些 socket 就绪，所以 select 需要遍历所有的 socket。

另外，应用程序遍历这个就绪链表，由于就绪链表是位于内核空间，所以需要拷贝到用户空间，这里要注意一下，网上很多不靠谱的文章说用了共享内存，其实不是。由于这个就绪链表的数量是相对较少的，所以由内核拷贝这个就绪链表到用户空间，这个效率是较高的。

我来来直接看一下 epoll_wait 做了什么事？epoll_wait 最终会调用到 ep_send_events_proc 这个函数，从函数名字也知道，这个函数是用来把就绪链表中的内容复制到用户空间，向应用程序通知事件。

static __poll_t ep_send_events_proc(struct eventpoll *ep, struct list_head *head,
       void *priv)
{
struct ep_send_events_data *esed = priv;
__poll_t revents;
struct epitem *epi, *tmp;
struct epoll_event __user *uevent = esed->events;   # 这个就是在用户空间分配的一段内存指针，该函数会把 rdllist 拷贝到这块内存
struct wakeup_source *ws;
poll_table pt;

init_poll_funcptr(&pt, NULL);
esed->res = 0;

/*
 * We can loop without lock because we are passed a task private list.
 * Items cannot vanish during the loop because ep_scan_ready_list() is
 * holding "mtx" during this call.
 */
lockdep_assert_held(&ep->mtx);

list_for_each_entry_safe(epi, tmp, head, rdllink) {
if (esed->res >= esed->maxevents)
break;

/*
 * Activate ep->ws before deactivating epi->ws to prevent
 * triggering auto-suspend here (in case we reactive epi->ws
 * below).
 *
 * This could be rearranged to delay the deactivation of epi->ws
 * instead, but then epi->ws would temporarily be out of sync
 * with ep_is_linked().
 */
ws = ep_wakeup_source(epi);
if (ws) {
if (ws->active)
__pm_stay_awake(ep->ws);
__pm_relax(ws);
}

list_del_init(&epi->rdllink);

/*
 * If the event mask intersect the caller-requested one,
 * deliver the event to userspace. Again, ep_scan_ready_list()
 * is holding ep->mtx, so no operations coming from userspace
 * can change the item.
 */
revents = ep_item_poll(epi, &pt, 1);
if (!revents)
continue;
       
       # 拷贝 rdllist 到 用户空间提供的一个内存指针
if (__put_user(revents, &uevent->events) ||
    __put_user(epi->event.data, &uevent->data)) {
list_add(&epi->rdllink, head);
ep_pm_stay_awake(epi);
if (!esed->res)
esed->res = -EFAULT;
return 0;
}
esed->res++;
uevent++;
if (epi->event.events & EPOLLONESHOT)
epi->event.events &= EP_PRIVATE_BITS;
else if (!(epi->event.events & EPOLLET)) {
/*
 * If this file has been added with Level
 * Trigger mode, we need to insert back inside
 * the ready list, so that the next call to
 * epoll_wait() will check again the events
 * availability. At this point, no one can insert
 * into ep->rdllist besides us. The epoll_ctl()
 * callers are locked out by
 * ep_scan_ready_list() holding "mtx" and the
 * poll callback will queue them in ep->ovflist.
 */
list_add_tail(&epi->rdllink, &ep->rdllist);
ep_pm_stay_awake(epi);
}
}

return 0;
}

上面可以看到，这里确确实实是从内核复制 rdllist 到用户空间，非共享内存。应用程序调用 epoll_wait 返回后，开始遍历拷贝回来的内容，处理 socket 事件。

至此，从注册一个 file descriptor(socket fd) 到 epoll 红黑树，到这个 socket 上有数据包从网卡进来，再到如何触发 epoll，再到应用程序的用户空间，由应用程序开始 read/write 事件的整个过程就理顺了。不知道大家有没有理解了？

accept 事件

accept 事件属于可读事件的一种，这里单独提出来讲一下，是因为编程的时候针对 accept 有一些点需要注意，这里先大致讲一下，后面会有另外的博文展开讲。

当 socket 有可读事件达到后，epoll_wait 获取到就绪的 socket，应用程序开始处理可读事件，如果这个 socket 的 fd 等于 listen() 的 fd，说明有新连接到达，(server)开始调用 accept() 处理连接。

accept() 返回的新的 socket 对象，对应与 client 的一个新的连接，应用程序需要把这个新的 socket 对象注册到 epoll 红黑树上，并且添加关心的事件（EPOLLIN/EPOLLOUT…)，然后开始 epoll 循环。

另外还有一点要注意的，accept 的惊群效应。

先解释一下什么是惊群，如果一个 socket 上有多个进程在同时等待事件，当事件触发后，内核可能会唤醒多个或者所有在等待的进程，然而只会有一个进程成功获取该事件，其他进程都失败，这种情况就叫惊群，会一定程度浪费 cpu，影响性能。如果用一个例子来解释的话就是，有一个鸡群，如果往这个鸡群里丢一粒米，那么会造成所有鸡（或者大多数鸡）一起来争抢这粒米，但是最终只会有一只鸡能抢到这粒米。

对于 accept() 来说，通常我们会使用多线程或者多进程的方式来监听同一个 listen fd，此时，就很可能发生惊群效应。

关于惊群效应，此处只简单提一下概念，后面开另外的博文深入探讨下惊群效应以及解决方案。

总结

上面深入的分析了 epoll 的底层实现原理，现在回到文章开头提到的与 select/poll 对比的几个优点，是不是能理解了呢？

简单总结一下:

epoll 在内核开辟了一块缓存，用来创建 eventpoll 对象，并返回一个 file descriptor 代表 epoll instance
这个 epoll instance 中创建了一颗红黑树以及一个就绪的双向链表（当然还有其他的成员）
红黑树用来缓存所有的 socket，支持 O(log(n)) 的插入和查找，减少后续与用户空间的交互
socket 就绪后，会回调一个回调函数（添加到 epoll instance 上时注册到 socket 的）
这个回调函数会把这个 socket 放到就绪链表，并唤醒 epoll_wait
应用程序拷贝就绪 socket 到用户空间，开始遍历处理就绪的 socket
如果有新的 socket，再添加到 epoll 红黑树上，重复这个过程

到这里应该能比较透彻的理解 epoll 的原理了，接下来会继续写几篇关于 epoll 的博文（先把坑埋下）:

epoll 入门例子 tcp server/client
epoll 惊群(todo)
epoll 源码分析(todo)
内核收发包路径(todo)

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-09-26 于杭州
By 史矛革

使用 mkdocs 搭建个人 wiki 站点

2020-09-20T15:50:58.000Z

why wiki

博客通常是用来记录一些完整的文章，每篇文章有一个主题。但是我想把平日里的一些笔记也记录到我的博客里，但笔记是零散的，随时的，不是完整的一个主题。所以打算构建一个 wiki 页面，专门用来存放我的笔记，wiki 页面类似于维基百科的形式。

我的博客采用的是 hexo 构建的，如果打算 DIY 一个类似于 维基百科 的 wiki 页面的话，对于我来说，也许有点难度，毕竟我只会写简单的网页。那么有没有现成的方案或者替代的方案呢？

答案是有的，那就是 mkdocs。

mkdocs 使用

什么是 Mkdocs 呢？

MkDocs is a fast, simple and downright gorgeous static site generator that’s geared towards building project documentation. Documentation source files are written in Markdown, and configured with a single YAML configuration file. Start by reading the introduction below, then check the User Guide for more info.

mkdocs 是一个用 python 编写的静态站点生成工具，主要是用来编写项目文档，文档使用 Markdown 编写，只需要配合一个 YAML 配置文件，就能快速生成一个站点。

毫无疑问，对于我来说，它有以下几个优点：

使用 python 编写（说明有 DIY 的可能）
源文件使用 Markdown 编写
只需要一个 Yaml 文件，非常简单了
主题可选（当然目前来说不是特别多）

可以先看一下我的wiki.

快速开始

可以参考官方文档：mkdocs.org，或者直接往下看：

首先安装 mkdocs:

1	$ pip install mkdocs

安装完成之后直接生成一个项目：

$ mkdocs new mysite                                                                    [23:33:49]
INFO    -  Creating project directory: mysite
INFO    -  Writing config file: mysite/mkdocs.yml
INFO    -  Writing initial docs: mysite/docs/index.md

看看都生成了啥：

$ cd mysite
$ tree                                                                                    [23:34:59]
.
├── docs
│   └── index.md
└── mkdocs.yml

1 directory, 2 files

默认生成了一个 yml 配置文件以及一个默认的 markdown 文件。

看看 mkdocs 支持哪些命令：

$ mkdocs -h                                                                               [23:36:21]
Usage: mkdocs [OPTIONS] COMMAND [ARGS]...

  MkDocs - Project documentation with Markdown.

Options:
  -V, --version  Show the version and exit.
  -q, --quiet    Silence warnings
  -v, --verbose  Enable verbose output
  -h, --help     Show this message and exit.

Commands:
  build      Build the MkDocs documentation
  gh-deploy  Deploy your documentation to GitHub Pages
  new        Create a new MkDocs project
  serve      Run the builtin development server

构建站点：

1	$ mkdocs build

然后生成了一个 site 目录：

$ tree                                                                                    [23:37:23]
.
├── docs
│   └── index.md
├── mkdocs.yml
└── site
    ├── 404.html
    ├── css
    │   ├── base.css
    │   ├── bootstrap.min.css
    │   └── font-awesome.min.css
    ├── fonts
    │   ├── fontawesome-webfont.eot
    │   ├── fontawesome-webfont.svg
    │   ├── fontawesome-webfont.ttf
    │   ├── fontawesome-webfont.woff
    │   ├── fontawesome-webfont.woff2
    │   ├── glyphicons-halflings-regular.eot
    │   ├── glyphicons-halflings-regular.svg
    │   ├── glyphicons-halflings-regular.ttf
    │   ├── glyphicons-halflings-regular.woff
    │   └── glyphicons-halflings-regular.woff2
    ├── img
    │   ├── favicon.ico
    │   └── grid.png
    ├── index.html
    ├── js
    │   ├── base.js
    │   ├── bootstrap.min.js
    │   └── jquery-1.10.2.min.js
    ├── search
    │   ├── lunr.js
    │   ├── main.js
    │   ├── search_index.json
    │   └── worker.js
    ├── sitemap.xml
    └── sitemap.xml.gz

7 directories, 28 files

可以看到 site 目录下就是站点的源码了，那么本地测试一下：

1	$ mkdocs serve

然后访问 http://127.0.0.1:8000，能看到默认的站点了：

是不是超级超级简单？

那么这个是 mkdocs 最简单的使用，接下来分享下我的使用，经过了一些定制化，包括主题的选择，域名的绑定，站点的发布等。

使用 github pages 发布 wiki

我的博客使用了 github pages 进行托管（目前不是，目前已经迁移到香港虚拟空间），但是如何把上面 mkdocs 生成的站点源码和博客源码放到一起呢？

有很多方法，比如可以手动把 wiki 站点源码放到博客根目录下；

但其实 github pages 是可以支持多个站点的，不知道有没有同学还不知道？

简单来说，使用一个 github 账号，能创建一个 用户站点，格式为 .github.io，比如我的博客源码仓库： smaugx.github.io;

但是除了一个用户站点之外，还能创建任意多个 普通站点，仓库名字任意，没有要求。

也就是说一个 github 账户其实是可以创建多个博客站点的。

关于如何创建一个普通站点，可以参考 github 官方文档：创建 GitHub Pages 站点.

或者往下看。

wiki 仓库设置

这里以我的 wiki 为例： https://github.com/smaugx/wiki，站点效果可以直接查看我的 wiki: https://rebootcat.com/wiki。

1 在 github 上创建一个仓库，命名为 wiki 或者其他的任意名字

2 克隆我的项目： git clone https://github.com/smaugx/wiki.git

3 更改仓库 remote-url 为你刚创建的 wiki 的 github url

1
2
3

cd wiki
git remote rm origin
git remote add origin  https://github.com/yourname/your-wiki.git

上面改成你自己的 wiki 地址（或者使用 ssh 的方式）

4 推送本地仓库 wiki 到远程 wiki

1	git push -u origin master

至此，你的 github 上应该有一个和我的 wiki 仓库一样的仓库了。

接下来讲一下怎么设置仓库。

5 首先去到刚创建好的 wiki 仓库 https://github.com/yourname/your-wiki

6 点击设置，往下拉到 GiHub Pages 配置项，选择 master 分支，选择 /docs 目录，然后点击 save 保存

7 上面一部之后，再次回到 Github Pages 配置项，找到下面的 Custom domain，填入你的域名或者 url 地址，比如我直接写了： http://rebootcat.com/wiki

8 不出意外，你就能正常访问了。

上面的前提当然是你已经有了个人博客，也就是已经有了一个命名为 .github.io 的仓库了，不然是不会成功了，你要先创建一个这样的仓库。

编写wiki，更新 wiki

上面如果顺利的话，你能看到和我的 wiki 一样的内容：

那么如何编写你自己的 wiki 文章呢？

我们回到本地的 wiki 仓库：

cd wiki

注意，我的文档都放在了 source 目录下：

1 2	$ ls source git.md index.md other.md python.md rsync.md

所以你只需要删除我的 Markdown文档，把你的 Markdown 文档放到该目录，然后执行：

$ python run.py
warning: found not support file type:.DS_Store
############### begin dump mkdocs.yml ###############
copyright: "Copyright \xA9 2020-2020 smaug"
docs_dir: source
extra:
  article_nav_bottom: true
  history_buttons: true
  version: v1.0.4
markdown_extensions:
- admonition
nav:
- Home: index.md
- python: python.md
- rsync: rsync.md
- git: git.md
- "\u5176\u4ED6": other.md
repo_url: https://github.com/smaugx/wiki
site_author: smaugx
site_description: "My Wiki | \u6797\u5915\u6C34\u5171"
site_dir: docs
site_name: "My Wiki | \u6797\u5915\u6C34\u5171"
site_url: http://rebootcat.com/wiki
theme:
  custom_dir: mkdocs_windmill
  include_search_page: true
  name: null
  search_index_only: true
  static_templates:
  - 404.html

############### update mkdocs.yml done ###############

############### begin mkdocs build ###############
INFO    -  Cleaning site directory
INFO    -  Building documentation to directory: /Users/smaug/centos7/SmaugDemo/wiki/docs
INFO    -  Documentation built in 0.18 seconds
############### mkdocs build done in dir:docs ###############

############### begin git push:git add --all . && git commit -m "update mkdocs site" && git push ###############
Counting objects: 5, done.
Delta compression using up to 4 threads.
Compressing objects: 100% (5/5), done.
Writing objects: 100% (5/5), 443 bytes | 443.00 KiB/s, done.
Total 5 (delta 4), reused 0 (delta 0)
remote: Resolving deltas: 100% (4/4), completed with 4 local objects.
To github.com:smaugx/wiki.git
   ba3b15e..4131b86  master -> master
[master 4131b86] update mkdocs site
 2 files changed, 1 insertion(+), 1 deletion(-)
############### git push done ###############

这个脚本的功能是根据 source 目录下的 Markdown 文档，更新 yaml 站点配置文件，然后生成站点源码，然后推送站点源码到 github 上。

如果执行出错，可以自行调试一下，一般问题不大。

博客首页引导栏添加 `维基`栏

这个过程就省略了。

The End

wiki 站点搭建完毕，

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-09-20 于杭州
By 史矛革

Hexo 配置 Cloudflare 免费 CDN

2020-09-20T05:23:58.000Z

CDN

关于 CDN 是什么，我想应该不用做过多的介绍，毕竟现在是一个 “云” 的时代，你至少也听说过阿里云或者腾讯云吧，当然其中就包括 CDN 业务。

CDN 的作用有很多，比如可以用来加速网站的访问，可以用来防护网站等。本篇文章讨论的就是使用 cloudflare 作为 CDN 来加速博客网站，并让博客开启 https，提升博客安全等级。

加速网站访问
开启https

选择什么 CDN 呢？

选择 CDN，对于个人博客来说，主要考虑的还是访问速度以及价格，当然也有免费的 CDN。Cloudflare 就是一家提供免费 CDN 的公司，也是在 CDN 领域比较知名的公司。

话不多说，关于 cloudflare 的配置网上可以搜到很多文章，这里我就简单记录一下。

Cloudflare 配置

由于我的博客 rebootcat.com 已经迁移到香港的虚拟主机了，并且开启了 https 访问，详见博文：迁移博客到香港虚拟空间，故我以我另外的一个博客 loveyxq.online 为例说明。

loveyxq.online 这个博客是我给我女朋友搭建的，放了一些图片之类的，之前也是托管于 github pages 上。

开始配置

1 开始之前，需要限注册一个 Cloudflare 账号，这个没说的

2 注册好之后 Add site 添加你的博客域名

3 然后选择一个计划 Select a plan，此处我们选择免费版本的（当然你也可以选择收费版），然后点击 Confirm plan

4 然后添加 DNS 记录

5 完成之后需要去到你的域名注册网站，修改 nameservers 为 cloudflare 自己的，通常是：

1
2
3

TypeValue
NSdeb.ns.cloudflare.com
NSwilson.ns.cloudflare.com

6 完成之后点击 Recheck Nameservers 来检查配置是否正确。

https 开启

如上图所示，选择 Full mode。

设置完成后需要等待一段时间，才能使用 https 的方式去访问。此处是一个坑，设置完成以后别着急，可能要等待一个小时左右（具体忘了），cloudflare 在做 ssl 验证。

效果

实话实说，效果没有很好，毕竟免费版本的 cloudflare 给的解析节点其实不多，如下图红框内部所示。然后也可以看到，全球各地对 loveyxq.online 的解析都是到了 cloudflare 上，已经没有 github pages 的 IP 了。

另外，使用了 cloudflare 之后，cloudflare 也会对网站的访问情况以及防御情况做统计：

The End

关于 CDN 的介绍，以后有空再重新分享一篇吧。主要是涉及到 CDN 的安全以及源站的防护这块。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-09-20 于杭州
By 史矛革

迁移博客到香港虚拟空间

2020-09-20T03:23:58.000Z

缘起

我的博客一直采用的是 github pages 来托管，中间断断续续的也没怎么管理过，偶尔写几篇博客，所以也就没怎么关心过访问速度，搜索引擎收录等问题。

不过我对博客一直还是情有独钟，我觉得像我一样的软件工程师，如果能有个人博客，并且保持一定程度的更新率还是很有必要的。

这次迁移主要考虑三个原因：

访问速度较慢
博客还不支持 https
谷歌搜索引擎收录较少

github pages 服务器位于美国，对于中文博客来说，访问还是有一些慢的，且不说 github 未来在我国很有可能被 feng，所以打算迁移到国内来。之前博客其实是有部署过双线的，国外走 github，国内走 coding，但奈何 coding 不争气，后来我干脆停了 coding 的解析。现在打算找一个付费的香港虚拟主机，一年几十块钱搞定。

另外就是由于之前已经采用了 rebootcat.com 这个域名，所以无法在 github pages 上开启 https（当然方法是有的，比如使用 cloudflare 加速，这个详见我另外一篇博文），所以这次的迁移也打算开启全站 https。

购买香港虚拟主机

虚拟主机是什么？

虚拟主机（英语：virtual hosting）或称共享主机（shared web hosting），又称虚拟服务器，是一种在单一主机或主机群上，实现多网域服务的方法，可以运行多个网站或服务的技术。虚拟主机之间完全独立，并可由用户自行管理，虚拟并非指不存在，而是指空间是由实体的服务器延伸而来，其硬件系统可以是基于服务器群，或者单个服务器。(来自某百科）

简单来说，虚拟主机就是你可以用来托管网站，给你一定量的存储空间，以及访问流量，还有IP 或者域名绑定等。

这里需要说明的是，你能搜到很多免费的虚拟空间，免费的我个人不太建议，免费的有很多问题这里就不细说了，况且付费的也没有很贵，一年几十块钱，当然还是有可能跑路的（手动狗头）！

如上图所示，这是我购买的虚拟主机的控制面板，提供了比较方便的中文管理面板，比如域名绑定，缓存设置，SSL 设置，FTP 管理等。

具体是哪一家，我就不说了（没有给我广告费，我的服务商看到了欢迎联系）。

绑定域名

由于之前是解析到 github pages 的，现在购买了虚拟主机后，会有一个新的 IP，需要重新解析域名到这个 IP 上

如上图所示，红色框里面的就是新加的两条 DNS 解析记录，黄色框里面就是之前解析到 github pages 的记录，现在我把他们全部暂停了（以防后期会用到）。

解析完成之后，等待生效，使用多地 ping 的工具去测试一下 DNS 解析是否生效了。或者你本地使用 ping 看是否生效了。

$ ping rebootcat.com -c 4                                            [10:45:50]
PING rebootcat.com (109.206.246.144): 56 data bytes
64 bytes from 109.206.246.144: icmp_seq=0 ttl=52 time=44.976 ms
64 bytes from 109.206.246.144: icmp_seq=1 ttl=52 time=49.814 ms
64 bytes from 109.206.246.144: icmp_seq=2 ttl=52 time=46.947 ms
64 bytes from 109.206.246.144: icmp_seq=3 ttl=52 time=46.809 ms

--- rebootcat.com ping statistics ---
4 packets transmitted, 4 packets received, 0.0% packet loss
round-trip min/avg/max/stddev = 44.976/47.136/49.814/1.731 ms

可以看到上面解析到了新的 IP 上。

FTP 上传网站源码

我的博客是基于 hexo 搭建的，之前是直接把网站源码发布到 github pages 上了：

hexo d -g

现在需要把生成的网站源码打包上传到虚拟主机上。

hexo 生成的网站源码位于 public 目录下：

1	zip -r blog.zip public

然后把 blog.zip 通过面板上的 在线文件管理 上传到虚拟主机的根目录里，比如我的根目录是 /wwwroot/，然后点击解压。

完成之后，浏览器输入网站

1	http://rebootcat.com

看能否正确响应。一般来说，没什么问题，如果无法访问，请联系你的虚拟主机提供商。

自动化上传网站源码

上面的步骤，基本上已经完成了博客迁移的大部分工作了。不过对于程序员来说，怎么能每次更新博文之后还要重复上面的步骤，甚至是需要每次用浏览器打开虚拟主机控制面板上传网站源码，那岂不是很麻烦，并且不够极客精神。

那必然是要做成自动化的方式，一个命令搞定网站更新。

其实也简单，就是利用服务商提供的 FTP 口令，使用 python 脚本自动化上传网站源码，实现自动化更新。

python 脚本可以直接从我的 github 下载：

https://github.com/smaugx/dailytools/blob/master/ftpblog.py

然后修改代码里的网站域名以及 ftp 口令，改成你自己的，修改上传的本地目录以及远程目录，然后执行脚本自动化上传：

1	python ftpblog.py

配置 HTTPS

使用的是 https://freessl.cn/ 生成免费的 HTTPS 证书。

打开网站，输入你的域名以及邮箱，根据提示下载一个工具 KeyManager，然后生成证书：

然后回到 freessl.cn 网站页面进行 DNS 验证：

目的就是为了验证你的域名的所有权。这里根据提示，去 DNS 解析的地方设置解析记录。

验证成功之后使用 KeyManager 导出证书：

然后会得到一个类似于 rebootcat-com-nginx-0909002710.zip 的包，解压之后会得到两个文件：

1 2	rebootcat.com_chain.crt rebootcat.com_key.key

用编辑器打开这两个文件，或者直接 cat 这两个文件，一个是 SSl 的证书，一个是 SSL 密钥，把这两个文件的内容拷贝到虚拟主机面板的 SSL设置处：

并且开启了 http 跳转 https。

到此， HTTPS 证书设置就完成了。

注意需要记住 KeyManager 的主密码

试试用 https://rebootcat.com 看能否正确访问呢？

网站云监控

由于购买的是香港的虚拟主机，毕竟一年也才几十块钱，很难说服务提供商就跑路了，为了避免这一类事情发生的时候导致博客无法访问，有必要对博客网站进行一些云监控，一旦出现异常，则告警。

免费的网站监控工具有很多，我用的是阿里云的监控以及 UpTimeRobot 的网站监控：

这个自行设置一下，注意设置好报警阈值，不然可能会造成误报：

所以一旦出了很严重的报警，那么说明你的服务商跑路了。。。

效果

这里就简单贴一下迁移前后的效果图：

迁移前：

迁移后：

可以看到还是有很好的改善的，毕竟服务器位于香港。

The End

到此，博客迁移就完成了，访问速度提升了，也开启了 https。接下来我会考虑对博客首页做一些优化，但由于现在图片走的其实还是 jsdelivr 的国外 cdn，所以速度还是有点慢，可以考虑直接把图片放到网站根目录下，毕竟现在使用的是虚拟主机。

后面再说吧，也可以考虑把图片等放到阿里云或者腾讯云对象存储上。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-09-20 于杭州
By 史矛革

Hexo Next 博客添加相册瀑布流

2020-09-19T03:23:58.000Z

前言

一直没有时间来整理下博客搭建的一些事情，现在补上一篇，给 Hexo Next 博客添加一个相册功能，使用瀑布流的方式。

原理说明

使用 github 作为仓库存储图片文件（图床）
使用 jsdelivr 进行图片 CDN 加速

优点

此种方式的优点是免费，不需要购买其他的对象存储产品；并且使用的是 github 作为图床，图片不会丢失。

早期的博文使用的是七牛云的免费存储，结果后来被他们删掉了。。。结果造成文中的一些图片链接都是 404，有兴趣的可以翻一翻我早期的博客。

缺点

由于采用的是 github 仓库存储图片，但是 github 对单仓库有 50MB 的大小限制，所以单仓库可能不能够存储太多的文件；

解决方法就是建立很多的图片仓库（稍微有点费劲，不过是行得通的）；另外上传的单张图片大小最好不要太大。

还有个缺点就是得折腾啊，且看我后文。

各位可以参考下我的相册瀑布流: 摄影

开始搭建相册瀑布流

开始之前，需要简单介绍一下，我参考的是 Hexo NexT 博客增加瀑布流相册页面这篇文章，文中涉及到的脚本主要都是 js 实现；与他不同的是，由于我对 js 的掌握远远不及我对 Python 的掌握，故部分脚本我采用了 Python 实现。

所以在开始操作之前，你可以根据自己的技能，选择不同的方式。如果你擅长 python，那么跟着我来吧。

新建 photo 页面

去到博客根目录：

1	mkdir -p source/photos

然后进入 photos 目录：

1 2	cd source/photos vim index.md

把下面的粘贴保存：

---
title: 摄影
type: photos
---


<style>
.MyGrid{width:100%;max-width:1040px;margin:0 auto;text-align:center}.card{overflow:hidden;transition:.3s ease-in-out;border-radius:8px;background-color:#efefef;padding:1.4px}.ImageInCard img{padding:0;border-radius:8px}
@media(prefers-color-scheme:dark){.card{background-color:#333;}}
style>



<div class="MyGrid">div>

修改 Next 主题配置文件

添加了 photos 页面后，需要在 next 配置文件中修改：

1	vim themes/next/_config.yml

找到 menu 项，填入如下：

1	photos: /photos \|\| fas fa-camera-retro

比如我的是这样的：

menu:
  home: / || home
  about: /about/ || user
  tags: /tags/ || tags
  categories: /categories/ || th
  archives: /archives/ || archive
  #schedule: /schedule/ || calendar
  #sitemap: /sitemap.xml || sitemap
  #commonweal: /404/ || heartbeat
  guestbook: /guestbook || fas fa-comments
  photos: /photos || fas fa-camera-retro
  wiki: /wiki/ || wikipedia-w

完成之后还需要修改一下这个文件：

1	vim themes/next/languages/zh-CN.yml

找到 menu 项，加入如下一行：

1	photos: 摄影

比如我的是这样的：

menu:
  home: 首页
  archives: 归档
  categories: 分类
  tags: 标签
  about: 关于
  search: 搜索
  schedule: 日程表
  sitemap: 站点地图
  commonweal: 公益 404
  guestbook: 留言
  photos: 摄影
  wiki: 维基

OK，到这里应该能看到这个摄影页面了，你可以现在本地测试一下看：

hexo s -g

添加 js 脚本

首先需要在 source 目录下新建一个 js 目录，用来保存自定义的一些 js 脚本；

1	mkdir -p source/js

然后新建 mygrid.js 文件，粘贴下面的一段代码：

// 获取网页不含域名的路径
var windowPath = window.location.pathname;
// 图片信息文件路径
var imgDataPath = '/photos/photoslist.json';
// 图片显示数量
var imgMaxNum = 50;
// 获取窗口宽度（以确定图片显示宽度）
var windowWidth = window.innerWidth
|| document.documentElement.clientWidth
|| document.body.clientWidth;
if (windowWidth < 768) {
    var imageWidth = 145; // 图片显示宽度(手机)
} else {
    var imageWidth = 215; // 图片显示宽度
}
// 腾讯云图片处理样式（根据图片显示宽度）
var imgStyle = '!' + imageWidth + 'x';


// 图片卡片（照片页面）
if (windowPath.indexOf('photos') > 0 ) {
    var LinkDataPath = imgDataPath;
    photo = {
        page: 1,
        offset: imgMaxNum,
        init: function () {
            var that = this;
            $.getJSON(LinkDataPath, function (data) {
                that.render(that.page, data);
            });
        },
        render: function (page, data) {
            var begin = (page - 1) * this.offset;
            var end = page * this.offset;
            if (begin >= data.length) return;
            var html, imgNameWithPattern, imgName, imageSize, imageX, imageY, li = "";
            for (var i = begin; i < end && i < data.length; i++) {
                imgNameWithPattern = data[i].split(';')[1];  // a.png
                imgName = imgNameWithPattern.split('.')[0]  // a
                imageSize = data[i].split(';')[0]; // length.height
                imageX = imageSize.split('.')[0]; //  length
                imageY = imageSize.split('.')[1]; // height

  cdn_url       = data[i].split(';')[2]; // 原图 cdn url
  small_cdn_url = data[i].split(';')[3]; // 缩略图 cdn url

                li += ''px" >' +
                        ''px">' +
                            ''" data-caption="' + imgName + '" title="' +  imgName + '">' +
                                ' + small_cdn_url + '" src="' + small_cdn_url + '" data-loaded="true">' +
                            '' +
                        '
' +
                      '
'
            }
            $(".MyGrid").append(li);
            this.minigrid();
        },
        minigrid: function() {
            var grid = new Minigrid({
                container: '.MyGrid',
                item: '.card',
                gutter: 12
            });
            grid.mount();
            $(window).resize(function() {
                grid.mount();
            });
        }
    }
    photo.init();
}

或者你可以直接在我的博客上找到： rebootcat.com/mygrid.js

1	wget https://rebootcat.com/js/mygrid.js -O source/js/mygrid.js

新建图片信息文件

我们再次回到 photos 目录，创建文件 photoslist.json：

1	vim source/photos/photoslist.json

然后输入如下的内容：

[
  "1080.1920;WechatIMG114.jpeg;https://cdn.jsdelivr.net/gh/smaugx/MyblogImgHosting/rebootcat/photowall/cat/WechatIMG114.jpeg;https://cdn.jsdelivr.net/gh/smaugx/MyblogImgHosting/rebootcat/photowall/cat/WechatIMG114_small.jpeg",
  "3024.4032;WechatIMG25834.jpeg;https://cdn.jsdelivr.net/gh/smaugx/MyblogImgHosting/rebootcat/photowall/cat/WechatIMG25834.jpeg;https://cdn.jsdelivr.net/gh/smaugx/MyblogImgHosting/rebootcat/photowall/cat/WechatIMG25834_small.jpeg"
]

OK, 到现在应该你能从博客上看到这两张图片了:

hexo s -g

本地测试一下，如果你能看到在博客的摄影页面看到这两张图片，那么说明你的配置没问题，你可以进行接下来的操作了；如果你不能正确显示，说明前面的步骤出了问题，自己研究调试一下；如果你还不能解决，欢迎联系我。

使用 python 脚本生成 photoslist.json

上面可以看到，photoslist.json 存放的是图片的信息，mygrid.js 解析 photoslist.json 这个文件，然后在 photos 页面添加 dom.

所以核心的部分在于 photoslist.json 文件，我们可以分析下这个文件：

1080.1920;WechatIMG114.jpeg;https://cdn.jsdelivr.net/gh/smaugx/MyblogImgHosting/rebootcat/photowall/cat/WechatIMG114.jpeg;https://cdn.jsdelivr.net/gh/smaugx/MyblogImgHosting/rebootcat/photowall/cat/WechatIMG114_small.jpeg

photoslist.json 保存的是一个 list，list 中每一行是一张图片的信息，包括原始图片大小、文件名、原始图片cdn链接、缩略图cdn链接。

前面已经提到，我们的图片是使用了 github 作为图床（仓库），然后使用 jsdelivr 进行 cdn 加速。所以我们应该准备好图片文件，然后上传到仓库。

新建 github 仓库，用来存放图片文件

在 https://github.com 上创建图片仓库。

当仓库容量超过 50MB 之后需要重新再新建一个仓库

本地克隆仓库，然后把图片放入仓库，上传(这里以我的仓库为例）

git clone git@github.com:smaugx/MyblogImgHosting_2.git blogimg_2
cd blogimg_2

# put some image in this dir

...
git push

生成 photoslist.json 文件

编写 python 脚本或者直接从我的网站下载：

1	wget https://rebootcat.com/js/phototool.py -O phototool.py

脚本如下：

#!/usr/bin/env python
# -*- coding:utf8  -*-

import os
import glob
from PIL import Image, ExifTags
import json

config = {
        # github 存储图片的仓库（本地仓库基准目录）
        'github_img_host_base': '/Users/smaug/blogimg_2',
        # 会对这个目录下的所有文件夹进行遍历，相同目录生成_samll 的 缩略图
        'img_path':             '/Users/smaug/blogimg_2/rebootcat/photowall',
        # cdn 前缀
        'cdn_url_prefix':       'https://cdn.jsdelivr.net/gh/smaugx/MyblogImgHosting_2',
        # hexo 博客存放 photos 信息的 json 文件
        'photo_info_json':      '/Users/smaug/blog_rebootcat/source/photos/photoslist.json',
        }

# 压缩图片到 90%(目的是为了移除一些gps 等信息，并非真的为了压缩）
def compress_img(img_path, rate = 0.99, override = False):
    support_ftype_list = ['png', 'PNG', 'jpeg', 'JPEG', 'gif', 'GIF', 'bmp']
    sp_img = img_path.split('.')
    if not sp_img or sp_img[-1] not in support_ftype_list:
        print("not support image type:{0}", img_path)
        return False
    sp_img = img_path.split('/')
    if not sp_img:
        print("please give the right image path:{0}", img_path)
        return False
    img_full_name = sp_img[-1]
    img_name = img_full_name.split('.')[0]
    img_type = img_full_name.split('.')[1]
    img_path_prefix = img_path[:-len(img_full_name)]

    # 覆盖原图或者另存为
    compress_img_path = ''
    if override:
        compress_img_path = img_path
    else:
        compress_img_path = '{0}{1}_com.{2}'.format(img_path_prefix, img_name, img_type)

    img = Image.open(img_path)
    try:
        for orientation in ExifTags.TAGS.keys() :
            if ExifTags.TAGS[orientation]=='Orientation' : break
        exif=dict(img._getexif().items())
        if   exif[orientation] == 3 :
            img=img.rotate(180, expand = True)
        elif exif[orientation] == 6 :
            img=img.rotate(270, expand = True)
        elif exif[orientation] == 8 :
            img=img.rotate(90, expand = True)
    except Exception as e:
        print("catch exception:{0}",e)

    try:
        original_size = img.size
        length = original_size[0]
        height = original_size[1]
        new_length = int(length * rate)
        new_height = int(height * rate)
        print("originla length:{0} height:{1}", length, height)
        print("after compress length:{0} height:{1}", new_length, new_height)
        img = img.resize((new_length, new_height), Image.ANTIALIAS)
        img.save(compress_img_path, img_type)
        print("save compress img {0}".format(compress_img_path))
        return True
    except Exception as e:
        print("catch exception:{0}",e)

    return False


# 对 img_path 目录下的文件夹递归生成缩略图保存到同目录下
def thumbnail_pic(github_img_host_base, img_path, cdn_url_prefix):
    # 删除最后一个 '/'
    if img_path[-1] == '/':
        img_path = img_path[:-1]
    if github_img_host_base[-1] == '/':
        github_img_host_base = github_img_host_base[:-1]
    if cdn_url_prefix[-1] == '/':
        cdn_url_prefix = cdn_url_prefix[:-1]

    photo_info_list = []

    for item in os.listdir(img_path):
        print(item)
        abs_item = os.path.join(img_path, item)
        if os.path.isdir(abs_item): # sub-dir
            sub_img_path = abs_item
            print("cd dir:{0}".format(sub_img_path))
            sub_photo_info_list = thumbnail_pic(github_img_host_base, sub_img_path, cdn_url_prefix)
            photo_info_list.extend(sub_photo_info_list)
        else: # file
            ftype = item.split('.')
            if not ftype or len(ftype) != 2:
                print("error: invalid file:{0}".format(item))
                continue
            fname = ftype[0]  # a.png -> a
            ftype = ftype[1]  # a.png -> png
            support_ftype_list = ['png', 'PNG', 'jpeg', 'JPEG', 'gif', 'GIF', 'bmp']
            if ftype not in support_ftype_list:
                print("error: file type {0} not support, only support {1}".format(ftype, json.dumps(support_ftype_list)))
                continue

            abs_file = abs_item
            if item.find('_small') != -1: # 这是缩略图
                continue
            small_file = '{0}_small.{1}'.format(fname, ftype)
            abs_small_file = os.path.join(img_path, small_file)  # 缩略图绝对路径
            if os.path.exists(abs_small_file):
                # 对应的 _small 缩略图已经存在
                continue

            compress_status = compress_img(abs_file, 0.9, True)
            if not compress_status:
                print("compress_img fail:{0}", abs_file)
                continue

            im = Image.open(abs_file)
            original_size = im.size
            length = original_size[0]
            height = original_size[1]
            m = int(float(length) / 200.0)  # 计算缩小比例 (缩略图限制 200 长度)
            new_length = int(float(length) / m)
            new_height = int(float(height) / m)
            im.thumbnail((new_length, new_height))  # 生成缩略图
            im.save(abs_small_file, ftype)  # 保存缩略图
            print("save thumbnail img {0}".format(abs_small_file))

            relative_file       = abs_file[len(github_img_host_base) + 1:] # 计算相对路径，用来拼接 cdn
            relative_small_file = abs_small_file[len(github_img_host_base) + 1:]

            cdn_url_file        = '{0}/{1}'.format(cdn_url_prefix, relative_file)
            cdn_url_small_file  = '{0}/{1}'.format(cdn_url_prefix, relative_small_file)

            # 格式: 690.690;8.png;http://cdn_file_url;http://cdn_small_file_url;
            line = '{0}.{1};{2};{3};{4}'.format(length, height, item, cdn_url_file, cdn_url_small_file)
            photo_info_list.append(line)

    # end for loop
    print('dir:{0} Done!'.format(img_path))
    return photo_info_list


if __name__=='__main__':
    github_img_host_base = config.get('github_img_host_base')
    img_path             = config.get('img_path')
    cdn_url_prefix       = config.get('cdn_url_prefix')
    photo_info_json      = config.get('photo_info_json')

    photo_info_list     = []
    photo_info_list_has = []
    photo_info_list = thumbnail_pic(github_img_host_base, img_path, cdn_url_prefix)

    if os.path.exists(photo_info_json):
        with open(photo_info_json, 'r') as fin:
            photo_info_list_has = json.loads(fin.read())
            fin.close()

    photo_info_list_has.extend(photo_info_list)  # 追加此次新增的 photo info

    with open(photo_info_json, 'w') as fout:
        fout.write(json.dumps(photo_info_list_has, indent = 2))
        print("save photo_info_list to {0}".format(photo_info_json))
        fout.close()

    print("\nAll Done")

这里重点需要关注的是：

config = {
        # github 存储图片的仓库（本地仓库基准目录）
        'github_img_host_base': '/Users/smaug/blogimg_2',
        # 会对这个目录下的所有文件夹进行遍历，相同目录生成_samll 的 缩略图
        'img_path':             '/Users/smaug/blogimg_2/rebootcat/photowall',
        # cdn 前缀
        'cdn_url_prefix':       'https://cdn.jsdelivr.net/gh/smaugx/MyblogImgHosting_2',
        # hexo 博客存放 photos 信息的 json 文件
        'photo_info_json':      '/Users/smaug/blog_rebootcat/source/photos/photoslist.json',
        }

简单解释一下这个脚本：

github_img_host_base：这个目录也就是本地的仓库目录，绝对路径（上面克隆的仓库对应的本地文件夹路径）
img_path: 我单独新建了 rebootcat/photowall 目录存放瀑布流图片，对应本地的路径
cdn_url_prefix：jsdelivr cdn url 前缀，只需要更改成你自己的github 用户名以及仓库名
photo_info_json： photoslist.json 路径

上面几个参数一定要配置对了。

那么简单解释一下脚本的功能：

脚本会递归的查找 img_path 目录下的图片，然后进行一定的压缩（99%），这里的压缩目的并非真的是压缩，而是为了去除一些敏感信息，比如 GPS 信息。注意这里会覆盖掉原始图片。然后会生成图片的缩略图，同时根据上面的几个配置参数，生成两个 cdn url，一个对应的是原始图片的 cdn url，一个是缩略图的 cdn url.

然后执行：

1	python phototool.py

脚本执行完，就会增量生成 photoslist.json，可以先打开检查下对不对，或者把里面的 cdn url 复制出来从浏览器看能不能访问。

注意需要把本地图片仓库推送到远程。

这个 phototool.py 脚本你可以随便放在哪里，当你更新图片之后重新执行一遍就可以了。当然你也可以像我一样，跟网站源码直接放一起，所以你可以看到，我直接放到了 js 目录。

更新图片

把新图片放到本地仓库，然后执行：

1	python phototool.py

检查一下 photoslist.json 文件对不对，然后发布博客：

hexo d -g

发布之后，记得把本地图片仓库推送到远端，不然 jsdelivr 无法访问到。

至此，一个相册瀑布流就制作完成了！

The End

由于我是采用回忆的方式来写的博文，所以文中可能会有一些小的修改或者配置我忽略了，不过问题不大，大家如果碰到问题了可以自行研究一下，能解决的。

采用 github 作为图床来存放大量的瀑布流图片墙，方案是没问题的，只不过可能由于仓库容量的限制，需要在 github 上构建多个图片仓库。

对于我来说，github 图片仓库主要用来存放博文中涉及到的图片。至于图片墙，我再另想办法吧。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-09-19 于杭州
By 史矛革

对区块链行业现状的一点看法

2020-09-16T12:23:58.000Z

对行业现状的一点看法

2020 年，新冠肆虐。

最近对于区块链的想法有点消极。简单谈一下。

纵观整个区块链行业，公链项目死了很多，还活着的也在拖着，除了少数明星公链。也许未来的几年之内，这种状况还会持续下去，对于公链项目来说，要么死，要么拖下去再死，要么成为明星。无论哪一条路，都异常难！

区块链目前能解决的问题范围依然还是比较局限，一方面受限于技术层面，一方面受限于政治层面。技术方面的难点，在于架构，在于算法设计，在于安全，在于通信。

架构上目前行业普遍追求可扩展的架构，这样的目的在于提高 TPS，为未来可能存在的真实大量业务提供服务，当然必然为此牺牲去中心化属性，牺牲安全属性，抉择就在于追求什么目标？从比特币到以太坊，再到 EOS，再到各种分片的公链，可以理解为逐步为了高 TPS 改良，因为比特币的交易速度实在是太慢了，为此我们势必要有一条满足我们交易需求的公链，至于这个交易频率需要多快，也许可以对标中心化得出答案。

比如 visa 的 TPS 在 1000 ~ 2000，银联在 2000 左右， paypal 600 ~ 1000等等。这里就不得不提出一个疑问，对于公链来说，追求高 TPS 是不是一个伪需求？

算法层面，为了保证零信任网络内部达成一致共识，会涉及到大量的收发包以及加解密过程，然而至今没有一条公链的共识算法能称得上权威或者标杆，整个行业仍然处于研究阶段，不同的公链之间互相参考学习，然后进行创新以及试验。

这个过程可能很漫长，需要大量的人才投入贡献。这也就意味着现阶段的公链，至少在共识算法层面，不能达到一个质的飞越。也许在未来，还得依靠其他的手段做改良。

安全层面，相较于中心化的系统，基本可以理解为系统是直接暴露在外网上，但是目前来说，中心化的系统里也越来越多出现云系统，一定程度也直接暴露在外网上。除了这点，更为严重的是，公链代码是需要开源的，也就意味着可以随意修改代码进入网络，这对安全提出了很大的要求。另外，公链上直接跑的就是金钱，也就会成为各路黑客的重点攻击对象。从比特币、以太坊，到不知名的公链，均发生过不下一起的安全攻击事件，有的直接分叉，有的直接倒闭，有的币价腰斩，有的让用户、交易所损失惨重。

通信上，通信层面受限于真实的、不确定的、波动的网络环境，并且由于算法的设计，会带来大量的广播，一条消息进入网络就会变成 n 倍的消息量。也许随着 5G 技术的发展，在通信层面能够彻底解决这些问题，但目前来说，5G 的大规模落地还有很大的不确定性。

政治层面的局限就太多了，毕竟去中心化金融系统挑战的是集权的中央政府，比特币发展 10 年，好像依然只有少数国家是承认比特币的合法性的，比特币期间还被多次宣布死亡。

对于区块链来说，真可谓路漫漫其修远兮，未来依然充满了巨大的挑战以及极大的不确定性，不过我们依然也可以说变数中才存在乘风破浪的机会，就看从哪个角度看了。

另外，区块链的技术圈和炒币圈似乎是割裂开来的，我本身是比较反对这种方式的，炒币的热度远远超过技术本身的热度，毕竟人都是逐利的，由此，一方面会给区块链的技术发展带来一些积极正面的影响和热度，让更多的人认识到区块链，加入到这个区块链的发展中来；但另外一方面，炒币的人似乎也压根不关心技术的东西，他们需要的只是几倍几倍的涨幅，也许项目方随便吹吹牛皮，拉几位 “大佬” 站台，他们就能往里投钱，而压根不关心项目的技术，由此造成了各式各样的骗局，反过来让真的想了解区块链技术，对区块链技术感兴趣的人对此失去兴趣，形成恶性循环。而现在，整个币圈基本是这样！

这不得不让人反思，区块链到底解决了什么？是否只是沦为资本的工具？还是一直在鼓吹伪命题伪需求？

前几年，听到最多个一个词就是 “信仰”，对区块链的信仰，对比特币的信仰。但是对于一个技术来说，信仰这个词是不是稍微有点沉重和多余？ 2000年的互联网技术，可惜无缘参与，不知道当时是否有很多人张口闭口一个 “信仰”，虽然无从得知，但我可以大胆猜测一下，应该是没有这样的现象的。

很多人把区块链技术和互联网技术做类比，比较两者的发展过程，由此得出一些结论，比如目前区块链行业的状态就是 2000 年的互联网，充满了寒冬、泡沫，但是再看看今天的互联网怎么样呢？由此说明区块链会成为下一个互联网。

我不否认一定程度上是对的，我们无法预估未来的发展，但是至少我们要对未来充满期待，对未来充满信念，而非 “信仰”。也许这个词多半是币圈流传，用来忽悠新人接盘的。但是把区块链和币圈割裂开来的方式似乎也是不妥，如果没有炒币这波人，也许区块链没有这么高的热度，但是就是这波炒币的人，让区块链行业乌烟瘴气，骗局和圈钱时有发生。所以，”信仰”这个词，真的没必要用在区块链上。区块链也许会改变世界，也许不会，它就是一个技术。

再回到当前，区块链行业追求的新名词也早已从公链、TPS、分片变成了 filecoin/ipfs、defi,真是瞬息万变。但是最近，也陆陆续续听说很多 defi 维权的新闻，至于 ipfs，沉寂了五六年时间，今年加上激励层filecoin 瞬间成为整个币圈的人都在谈论的明星项目，但是为什么这么火热呢？因为大家都在说这是第二个比特币，错过了比特币的挖矿，不要错过 ipfs 的挖矿。然后各种矿机卖的火热，参与的矿工也越来越多，官方还搞了竞赛，进一步助推了这波热度。

另外，观察一个现象，ipfs 是国外的项目，但在中国异常火热，这背后是否有一些幕后操手呢？再说 filecoin 主网，竞赛过程中 bug 不断，很明显内部没有经过比较系统的测试就赶鸭子上架的方式宣布即将主网上线，并开启挖矿竞赛。。。被资本裹挟的迹象很重，当然对于项目方来首，错过了这个热度，也许就永远没有机会了。于是不得不被资本裹挟。

这纯属我个人的阴谋论，不要在意。我想表达的是，区块链越来越沦为资本的工具，区块链从业者如何探索出一条正道迫在眉睫！

说了很多题外话，简单总结一下就是：

公链的困境，要么死，要么拖着，再死，要么成为明星，每一条道路都极其艰难；
区块链技术还有很多挑战，需要大量的牛逼的人才进入，攻克这些难题；
区块链的很多需求和追求也许是毫无意义的；
区块链和币圈千丝万缕的联系，让这个行业高光的同时也为这个行业带来了极其严重的负面影响；
区块链越来越沦为资本的工具，从业者探索出一条光明正道迫在眉睫；

前路何方？

路漫漫其修远兮，区块链也许能改变世界，也许不能！

Blog

rebootcat.com
email: linuxcode2niki@gmail.com

2020-09-16 于杭州

By 史矛革

cmake教程|cmake入门实战

2020-09-02T03:23:58.000Z

前言

我是一个 linux c++ 开发者，但是一直对 Makefile 的语法很是头痛，每次都记不住，所以每次写 Makefile 都很痛苦，Makefile 里需要你自己编写依赖和推导规则，这个过程能不能简单点呢？

对于编译一个 C++ 工程来说，也许需要的就是头文件路径、库路径、编译参数，剩下的东西基本也不重要，这三样足够去编译一个工程了。所以有没有一个工具能简单点的去实现 C++ 项目的构建呢？

答案是有的，上一篇博文 scons构建C++项目介绍了使用 scons 来构建 C++ 项目，大大提高了编写构建脚本的效率，使用起来也极为方便，对于熟悉 python 的童鞋来说真的是大大的福音；但 scons 的问题就是在大型项目的时候构建起来可能会很慢（听说的）。那么有没有其他的工具呢？

当然有，cmake 就是这样的一个工具，既能满足跨平台的编译，并且屏蔽了 Makefile 蛋疼的语法，使用一种更加简单的语法编写构建脚本，用在大型项目也毫无压力。

当然，对于我个人来说，cmake 的使用还是有门槛的，刚接触 cmake 可能还是会被它的语法搞的头疼（cmake 的语法也还是挺折腾的）。但是别急，沉下心来，本篇博文就带你从 cmake 入门到编写一个复杂工程的实战。

CMake

什么是 cmake

这里直接引用官网的解释：

CMake is an open-source, cross-platform family of tools designed to build, test and package software. CMake is used to control the software compilation process using simple platform and compiler independent configuration files, and generate native makefiles and workspaces that can be used in the compiler environment of your choice. The suite of CMake tools were created by Kitware in response to the need for a powerful, cross-platform build environment for open-source projects such as ITK and VTK.

CMake 是一个开源的跨平台的构建工具，语法简单，编译独立，并且很多知名大型项目也在用 CMake,比如 KDE、Netflix 、ReactOS等。

OK，话不多说，如何使用呢？

安装 cmake

1	sudo yum install cmake3.x86_64

现在最新版的 cmake 已经到 3.18.2 了。我使用的是 3.17.2 版本。

$ cmake --version
cmake version 3.17.2

CMake suite maintained and supported by Kitware (kitware.com/cmake).

初识 cmake

注：本文以一个多源文件，多目录结构的项目 mux 为例，介绍 cmake 的使用，相关源文件以及cmake 脚本可以直接查看源项目。

使用 cmake 来构建 C++ 项目，需要先编写 cmake 构建脚本，文件名为 CMakeLists.txt，项目顶层目录需要放一个 CMakeLists.txt，同时子目录可以根据需要放置 CMakeLists.txt。

那么先来看看 CMakeLists.txt 长啥样?

cmake_minimum_required(VERSION 3.8.0)

set(CMAKE_CXX_STANDARD 11)
set(CMAKE_CXX_STANDARD_REQUIRED ON)
set(CMAKE_CXX_EXTENSIONS OFF)

set(CMAKE_C_STANDARD 99)
set(CMAKE_C_STANDARD_REQUIRED ON)
set(CMAKE_C_EXTENSIONS OFF)

project(MUX CXX C)

add_definitions(
    -DTEST1   # define marco
    -DTEST2   # define marco
)

# common compiling options
add_compile_options(
    -Wl,--no-as-needed
    -fno-strict-aliasing
    -fthreadsafe-statics
    -pthread
    #-fstack-protector-strong
    -fno-short-enums
    -fPIC
)

option(XENABLE_TEST3  "enable test3 marco" OFF)

set(EXECUTABLE_OUTPUT_PATH ${MUX_BINARY_DIR}/bin)
set(LIBRARY_OUTPUT_PATH ${MUX_BINARY_DIR}/lib)

if (XENABLE_TEST3)
    add_definitions(-DTEST3)
endif()

if (NOT CMAKE_BUILD_TYPE)
    set(CMAKE_BUILD_TYPE Debug)
endif()


message(STATUS "CMAKE_BUILD_TYPE:" ${CMAKE_BUILD_TYPE})
message(STATUS "CMAKE_SYSTEM_NAME:" ${CMAKE_SYSTEM_NAME})
message(STATUS "XENABLE_TEST3:" ${XENABLE_TEST3})

find_package(Threads REQUIRED)

# include header dirs
include_directories(${CMAKE_SOURCE_DIR})   # project dir
include_directories(${CMAKE_SOURCE_DIR}/third-party/include)   # project dir
include_directories(${CMAKE_CURRENT_BINARY_DIR})  # current CMakeLists.txt dir (including sub dir)

# link lib dirs
link_directories(${CMAKE_SOURCE_DIR}/third-party/lib)
link_directories(${LIBRARY_OUTPUT_PATH})  # generate in building

add_subdirectory(demo/bench)
add_subdirectory(demo/echo)
add_subdirectory(epoll)
add_subdirectory(mbase)
add_subdirectory(message_handle)
add_subdirectory(transport)

完整的 CMakeLists.txt 见我的github，同时我也会以我的github项目 mux 为例，介绍 cmake 的使用。

上面的 CMakeLists.txt 乍一看，好多内容，但是别慌，我们来一个个说。

详解 cmake

注意：cmake 的语法可以分为命令(函数）和参数。命令不缺分大小写，参数区分大小写。

设置 cmake 版本的要求

1	cmake_minimum_required(VERSION 3.8.0)

在 cmake 中设置 c++ 标准，启用 c++11 或以上(根据项目的需求来）

set(CMAKE_CXX_STANDARD 11)
set(CMAKE_CXX_STANDARD_REQUIRED ON)
set(CMAKE_CXX_EXTENSIONS OFF)

set(CMAKE_C_STANDARD 99)
set(CMAKE_C_STANDARD_REQUIRED ON)
set(CMAKE_C_EXTENSIONS OFF)

设置项目名以及项目语言

1	project(MUX CXX C)

设置完项目名称之后，会自动创建两个变量 _SOURCE_DIR 和 _BINARY_DIR，对于 mux 这个项目来说，也就是 MUX_SOURCE_DIR 和 MUX_BINARY_DIR。

MUX_SOURCE_DIR 表示工程顶层目录； MUX_BINARY_DIR 表示 cmake 构建发生的目录。

因为你一定熟悉或者用过下面的命令或步骤：

mkdir cbuild
cd cbuild
cmake ..
make
make test
make install

通常我们会单独新建一个 cbuild 目录，用来构建项目，并且存放过程中产生的文件。那么 cbuild 目录就是 MUX_BINARY_DIR 表示的目录，cbuild 的上一级目录也就是项目顶层目录就是 MUX_SOURCE_DIR 表示的目录。

如果你没有单独新建 cbuild 目录，而是直接在项目顶层目录使用 cmake . ，那么上面两个变量均指项目顶层目录。

详见 https://cmake.org/cmake/help/latest/command/project.html

添加编译宏

add_definitions(
    -DTEST1   # define marco
    -DTEST2   # define marco
)

上面是我随便写的两个宏 TEST1 和 TEST2，那么在c++代码中通常是这样的：

#ifdef TEST1
    // do something about test1
#endif


#ifdef TEST2
   // do something about test2
#endif

当然要开启这个宏也可以不用写在 CMakeLists.txt 文件中，可以直接这样使用：

1 2	mkdir cbuild && cd cbuild cmake .. -DTEST1

这个根据你的项目需求来操作。

定义一些用户自定义的可选项

option(XENABLE_TEST3  "enable test3 marco" OFF)

if (XENABLE_TEST3)
    add_definitions(-DTEST3)
endif()

if (NOT CMAKE_BUILD_TYPE)
    set(CMAKE_BUILD_TYPE Debug)
endif()

使用 option 命令可以自定义一些变量的值，作为一些条件判断的开关很方便。

详见 https://cmake.org/cmake/help/latest/command/option.html

添加编译选项

# common compiling options
add_compile_options(
    -Wl,--no-as-needed
    -fno-strict-aliasing
    -fthreadsafe-statics
    -pthread
    #-fstack-protector-strong
    -fno-short-enums
    -fPIC
)

这里就是一些编译选项，根据自己的项目需求修改。

设置编译二进制(binary-executable 和 binary-lib）存放路径

1 2	set(EXECUTABLE_OUTPUT_PATH ${MUX_BINARY_DIR}/bin) set(LIBRARY_OUTPUT_PATH ${MUX_BINARY_DIR}/lib)

可以看到上面用到了 MUX_BINARY_DIR 这个变量，也就是说最终编译出来的二进制程序和lib 库会存放在 cbuild/bin 和 cbuild/lib 中。

打印一些信息到终端

1
2
3

message(STATUS "CMAKE_BUILD_TYPE:" ${CMAKE_BUILD_TYPE})
message(STATUS "CMAKE_SYSTEM_NAME:" ${CMAKE_SYSTEM_NAME})
message(STATUS "XENABLE_TEST3:" ${XENABLE_TEST3})

打印一些调试信息，或者编译信息到终端，使用的是 message 命令。

详见 https://cmake.org/cmake/help/latest/command/message.html。

设置头文件路径

# include header dirs
include_directories(${CMAKE_SOURCE_DIR})   # project dir
include_directories(${CMAKE_SOURCE_DIR}/third-party/include)   # project dir
include_directories(${CMAKE_CURRENT_BINARY_DIR})  # current CMakeLists.txt dir (including sub dir)

分别解释一下：

CMAKE_SOURCE_DIR 表示工程顶层目录，也就是 MUX_SOURCE_DIR；

CMAKE_CURRENT_BINARY_DIR 表示当前处理的 CMakeLists.txt 所在的目录，对于子目录中的 CMakeLists.txt 来说，即表示这个子目录。

通常这两个是常用的，必须的。然后使用 include_directories 命令包含其他的一些头文件路径。

设置依赖库的路径

1
2
3

# link lib dirs
link_directories(${CMAKE_SOURCE_DIR}/third-party/lib)
link_directories(${LIBRARY_OUTPUT_PATH})  # generate in building

LIBRARY_OUTPUT_PATH 就是上面设置的编译目标二进制库的存放路径，因为实际项目中，子模块之间可能会有一些依赖，子模块单独编译成一个库，然后让其他模块链接。这个目录也就是 cbuild/lib 目录。

引入子模块(子目录）

add_subdirectory(demo/bench)
add_subdirectory(demo/echo)
add_subdirectory(epoll)
add_subdirectory(mbase)
add_subdirectory(message_handle)
add_subdirectory(transport)

使用 add_subdirectory 命令把子模块包含进来，必须确保每个子目录下面有一个 CMakeLists.txt 文件，不然会报错。

以上就是工程顶层目录的 CMakeLists.txt 的内容，分析下来是不是很清楚呢？

那么工程顶层目录的 CMakeLists.txt 其实做的事情就是设置一些基本的变量，宏开关，编译参数，头文件路径，依赖库路径，编译目标保存路径等等，子目录中的 CMakeLists.txt 才是真正产生编译目标的（exe和lib)。

生成静态库/动态库

# keep all cpp files in varibale ${epoll_src}
aux_source_directory(./src epoll_src)

add_library(epoll STATIC ${epoll_src})

add_dependencies(epoll mbase )
target_link_libraries(epoll mbase pthread)

源文件在这：戳我

使用 aux_source_directory 添加源文件，相当于把 src 目录下的所有 c++ 文件保存到 epoll_src 这个变量中；

使用 add_library 生成目标库（根据需要可以生成静态库和动态库，分别使用 STATIC 和 SHARED)

然后就是添加这个模块需要依赖到的其他模块，以及链接参数。

上面的代码最终就会在 cbuild/lib 目录下生成一个 libepoll.a 文件。

生成二进制可执行文件

# build target echo_server
add_executable(echo_server echo_server.cc)
add_dependencies(echo_server transport msghandler mbase)
target_link_libraries(echo_server transport msghandler mbase)


# build target echo_client
add_executable(echo_client client.cc)
add_dependencies(echo_client transport msghandler mbase)
target_link_libraries(echo_client transport msghandler mbase)

源文件在这：戳我

和生成库大体是类似的，区别是使用的是 add_executable 这个命令。

其他子模块的 CMakeLists.txt 见我的github.

cmake 编译构建

上面详细的介绍了 CMakeLists.txt 的写法，如果仿照本文，应该也能写出适合你项目的构建脚本，但是可能还不够，其他语法自行 google 学习。

上面其实是以我的项目进行的演示，有必要解读一下这个项目的结构层次：

$ tree mux -d
mux
├── demo
│   ├── bench
│   └── echo
├── epoll
│   ├── include
│   └── src
├── mbase
│   └── src
├── message_handle
│   ├── include
│   └── src
├── third-party
│   ├── include
│   │   ├── nlohmann
│   │   └── spdlog
│   │       ├── cfg
│   │       ├── details
│   │       ├── fmt
│   │       │   └── bundled
│   │       └── sinks
│   └── lib
└── transport
    ├── include
    └── src

24 directories

mux 是工程顶层目录，下面包含的 epoll、mbase、message_handle、transport 这几个目录，均各自打包成一个静态库； demo 目录下分别包含 bench 和 echo 两个目录，这两个目录下需要构建可执行程序。

所以首先是epoll、mbase、message_handle、transport 这几个目录生成静态库，也就是最终会在 cbuild/lib 目录生成 libepoll.a, libmbase.a, libmsghandler.a, libtransport.a, 然后 bench 和 echo 下的代码依赖于前面的几个模块，生成可执行程序。

前面其实已经提到了，基本的构建命令如下：

mkdir cbuild
cd cbuild
cmake ..
make -j4

其中注意，如果你没有单独构建 cbuild 目录的话，可能会生成一些中间临时文件污染了目录。并且注意，cmake 后面的 .. 表示的是工程顶层的 CMakeLists.txt 的目录。所以如果直接使用的是工程顶层目录构建的话，就应该是 cmake .

$ cmake ..
-- The CXX compiler identification is GNU 4.8.5
-- The C compiler identification is GNU 4.8.5
-- Check for working CXX compiler: /usr/local/bin/c++
-- Check for working CXX compiler: /usr/local/bin/c++ - works
-- Detecting CXX compiler ABI info
-- Detecting CXX compiler ABI info - done
-- Detecting CXX compile features
-- Detecting CXX compile features - done
-- Check for working C compiler: /usr/local/bin/gcc
-- Check for working C compiler: /usr/local/bin/gcc - works
-- Detecting C compiler ABI info
-- Detecting C compiler ABI info - done
-- Detecting C compile features
-- Detecting C compile features - done
-- CMAKE_BUILD_TYPE:Debug
-- CMAKE_SYSTEM_NAME:Linux
-- XENABLE_TEST3:OFF
-- Looking for pthread.h
-- Looking for pthread.h - found
-- Performing Test CMAKE_HAVE_LIBC_PTHREAD
-- Performing Test CMAKE_HAVE_LIBC_PTHREAD - Failed
-- Looking for pthread_create in pthreads
-- Looking for pthread_create in pthreads - not found
-- Looking for pthread_create in pthread
-- Looking for pthread_create in pthread - found
-- Found Threads: TRUE
-- Configuring done
-- Generating done
-- Build files have been written to: /mnt/centos-share/workspace/mux/cbuild



$ make -j4
Scanning dependencies of target mbase
[  5%] Building CXX object mbase/CMakeFiles/mbase.dir/src/packet.cc.o
[ 11%] Linking CXX static library ../lib/libmbase.a
[ 11%] Built target mbase
Scanning dependencies of target msghandler
Scanning dependencies of target epoll
[ 17%] Building CXX object message_handle/CMakeFiles/msghandler.dir/src/message_handler.cc.o
[ 23%] Building CXX object epoll/CMakeFiles/epoll.dir/src/epoll_tcp_client.cc.o
[ 29%] Building CXX object epoll/CMakeFiles/epoll.dir/src/epoll_tcp_server.cc.o
[ 35%] Linking CXX static library ../lib/libepoll.a
[ 41%] Linking CXX static library ../lib/libmsghandler.a
[ 41%] Built target msghandler
[ 41%] Built target epoll
Scanning dependencies of target transport
[ 47%] Building CXX object transport/CMakeFiles/transport.dir/src/tcp_transport.cc.o
[ 52%] Linking CXX static library ../lib/libtransport.a
[ 52%] Built target transport
Scanning dependencies of target echo_client
Scanning dependencies of target echo_server
Scanning dependencies of target bench_client
Scanning dependencies of target bench_server
[ 58%] Building CXX object demo/echo/CMakeFiles/echo_client.dir/client.cc.o
[ 64%] Building CXX object demo/bench/CMakeFiles/bench_client.dir/client.cc.o
[ 70%] Building CXX object demo/echo/CMakeFiles/echo_server.dir/echo_server.cc.o
[ 76%] Building CXX object demo/bench/CMakeFiles/bench_server.dir/bench_server.cc.o
[ 82%] Linking CXX executable ../../bin/echo_client
[ 88%] Linking CXX executable ../../bin/echo_server
[ 94%] Linking CXX executable ../../bin/bench_server
[100%] Linking CXX executable ../../bin/bench_client
[100%] Built target echo_client
[100%] Built target echo_server
[100%] Built target bench_client
[100%] Built target bench_server

看看生成了啥：

$ ls cbuild/bin/
bench_client  bench_server  echo_client  echo_server

$ ls cbuild/lib/
libepoll.a  libmbase.a  libmsghandler.a  libtransport.a

Over!

写在最后

cmake 的构建其实认真熟悉之后，也还是能快速上手的，不要产生排斥心理，不然学起来就很慢很费劲。所以建议第一次接触 cmake 的或者以前一直抵触 cmake 的童鞋，静下心来，认认真真的看完本文或者其他的入门例子，那么你也能快速写一个多目录，多层次结构的 cmake 工程。

cmake 中其他的一些用法，建议随时查看官方的 cook book.

加油，少年，别怕！

另外，文中涉及到的项目可以在我的github 找到。

参考

CMake 教程 | CMake 从入门到应用

cmake使用教程

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-09-02 于杭州
By 史矛革

Scons构建C++项目

2020-08-30T03:23:58.000Z

前言

答案是有的，Scons 就是答案。

Scons

什么是 scons

这里直接引用官网的解释：

What is SCons?
SCons is an Open Source software construction tool—that is, a next-generation build tool. Think of SCons as an improved, cross-platform substitute for the classic Make utility with integrated functionality similar to autoconf/automake and compiler caches such as ccache. In short, SCons is an easier, more reliable and faster way to build software.

What makes SCons better?

Configuration files are Python scripts–use the power of a real programming language to solve build problems.
Reliable, automatic dependency analysis built-in for C, C++ and Fortran–no more “make depend” or “make clean” to get all of the dependencies. Dependency analysis is easily extensible through user-defined dependency Scanners for other languages or file types.
Built-in support for C, C++, D, Java, Fortran, Yacc, Lex, Qt and SWIG, and building TeX and LaTeX documents. Easily extensible through user-defined Builders for other languages or file types.
Building from central repositories of source code and/or pre-built targets.
Built-in support for fetching source files from SCCS, RCS, CVS, BitKeeper and Perforce.
Built-in support for Microsoft Visual Studio .NET and past Visual Studio versions, including generation of .dsp, .dsw, .sln and .vcproj files.
Reliable detection of build changes using MD5 signatures; optional, configurable support for traditional timestamps.
Improved support for parallel builds–like make -j but keeps N jobs running simultaneously regardless of directory hierarchy.
Integrated Autoconf-like support for finding #include files, libraries, functions and typedefs.
Global view of all dependencies–no more multiple build passes or reordering targets to build everything.
Ability to share built files in a cache to speed up multiple builds–like ccache but for any type of target file, not just C/C++ compilation.
Designed from the ground up for cross-platform builds, and known to work on Linux, other POSIX systems (including AIX, BSD systems, HP/UX, IRIX and Solaris), Windows NT, Mac OS X, and OS/2.

最大特点就是使用 Python 语法来编写编译构建脚本，并且支持依赖自动推导，支持编译 C/C++/D/Java/Fortran等项目，并且是跨平台的(因为 python 是跨平台的）。

所以如果你对 python 熟悉的话，而且你和我对 C++ Makefile 有一样的烦恼，那么这对你将是一个好消息。你将可以用 python 来编写构建脚本，而且会很简单，对于复杂的大型项目也能快速构建好。（也许只要 30 分钟）

安装 scons

因为 scons 是基于 python 来构建的，所以毋容置疑，首先是需要准备好 python 环境，然后使用下述命令安装 scons 工具。

1	pip install scons

scons 使用语法

注：本文以一个多源文件，多目录结构的项目 mux 为例，介绍 cmake 的使用，相关源文件以及cmake 脚本可以直接查看源项目。

scons 构建脚本由一个 SConstruct 文件和多个 SConscript 文件构成。

SConstruct 通常位于项目顶层目录，然后 SConscript 通常位于子目录（子模块）。

那么来看一下 SConstruct 脚本长啥样?

SConstruct

#!/usr/bin/env python
#-*- coding:utf-8 -*-


import sys
import os
import platform
import re

env = Environment()
abs_path = os.getcwd()
print('workspace path:{0}'.format(abs_path))

sbuild_dir = 'sbuild'

headers = ['.', 'third-party/include']
libs = ['./third-party/lib']

abs_headers = []
abs_libs = []

for item in headers:
    abs_item = os.path.join(abs_path, item)
    abs_headers.append(abs_item)


for item in libs:
    abs_item = os.path.join(abs_path, item)
    abs_libs.append(abs_item)

build_dir = os.path.join(abs_path, sbuild_dir)
abs_libs.append(os.path.join(build_dir, 'lib'))

CCFLAGS = '-ggdb -std=c++11'

print('\nheaders path:')
print(abs_headers)
print('\n')

print('libs path:')
print(abs_libs)
print('\n')

print("begin load SConscript")

env["headers"] = abs_headers
env["libs"]    = abs_libs
env["MUX_DIR"] = abs_path
env['ccflags'] = CCFLAGS
env['build_dir'] = build_dir

Export('env')

SConscript(['./mbase/SConscript'])
SConscript(['./message_handle/SConscript'])
SConscript(['./epoll/SConscript'])
SConscript(['./transport/SConscript'])
SConscript(['./demo/bench/SConscript'])
SConscript(['./demo/echo/SConscript'])

print("\n All Done, Please Check {0}".format(env['build_dir']))

来分析一下这个文件，源文件可以直接在我的github下载。

SConstruct 文件主要做了两件事：

env 环境变量的构造，主要是头文件路径，库路径，编译参数，自定义的一些变量等
使用 SConscript 函数解析执行子模块的 SConscript 文件

需要注意的是 SConstruct 和 SConscript 共享变量使用的就是 env 这个变量，你可以看到上面有一句：

1	Export('env')

这句很重要。

SConscript

那么位于子模块或者子目录的 SConscript 文件长啥样呢？

#!/usr/bin/env python
#-*- coding:utf-8 -*-

import os
import sys

Import('env')
project_dir  = env['MUX_DIR']

epoll_lib  = 'epoll'

epoll_src_path = os.path.join(project_dir, 'epoll/src')
epoll_sources = []
for item in os.listdir(epoll_src_path):
    if item.endswith('.cc') or item.endswith('.cpp') or item.endswith('.cxx'):
        abs_item = os.path.join(epoll_src_path, item)
        epoll_sources.append(abs_item)

print('\nbuild target:lib{0}.a'.format(epoll_lib))
print(epoll_sources)

lib_dir = os.path.join(env['build_dir'], 'lib')

link_libraries = ['mbase']
for lib_name in link_libraries:
    lib_name = "{0}{1}{2}".format(env['LIBPREFIX'], lib_name, env['LIBSUFFIX'])
    abs_lib_name = os.path.join(lib_dir, lib_name)
    epoll_sources.append(abs_lib_name)

env.StaticLibrary(target = os.path.join(lib_dir, epoll_lib),
        source  = epoll_sources,
        CPPPATH = env['headers'], # include
        LIBPATH = env['libs'],    # lib path
        LIBS    = ['pthread'],    # link lib
        CCFLAGS = env['ccflags']
        )

来分析一下这个文件，源文件可以直接在我的github下载。

SConscript 主要做了两件事：

构造一个源文件列表（用来构建 target 所需要使用的源文件）
根据需要构建 static_lib/dynamic_lib/binary

当然，还有一点很重要，上面其实提到了，SConscript 和 SConstruct 用来共享变量使用的是 env 这个变量，所以你可以看到一句很重要的：

1	Import('env')

构造源文件列表，对于 Python 来说，简直是小菜一碟，太简单了；

然后如何生成目标文件呢？

1 生成二进制文件

env.Program(target = os.path.join(bin_dir, echo_server_bin),
        source  = echo_server_sources,
        CPPPATH = env['headers'],
        LIBPATH = env['libs'],
        LIBS    = ['transport','msghandler','epoll', 'mbase', 'pthread'],
        CCFLAGS = env['ccflags']
        )

2 生成静态库

env.StaticLibrary(target = os.path.join(lib_dir, epoll_lib),
        source  = epoll_sources,
        CPPPATH = env['headers'], # include
        LIBPATH = env['libs'],    # lib path
        LIBS    = ['pthread'],    # link lib
        CCFLAGS = env['ccflags']
        )

3 生成动态库

env.SharedLibrary(target = os.path.join(lib_dir, epoll_lib),
        source  = epoll_sources,
        CPPPATH = env['headers'], # include
        LIBPATH = env['libs'],    # lib path
        LIBS    = ['pthread'],    # link lib
        CCFLAGS = env['ccflags']
        )

上面 3 个函数的参数都是类似的：

target: 指定需要生成的目标文件，通常我自己会写一个绝对路径；对于 lib 来说只需要写名字就行，前缀和后缀不需要写。(eg. target = ‘/root/scons_repo/sbuild/lib/test’ ，会生成 /root/scons_repo/sbuild/lib/libtest.a)
source: 编译目标文件需要的源文件列表
CPPPATH: 通常就是需要 Include 的头文件路径
LIBPATH: 通常就是需要链接的库路径
LIBS: 需要链接的库列表
CCFLAGS: 编译参数

attention:

上面有一个坑我自己碰到的，当我构建目标生成一个静态库的时候，需要链接其他的静态库，如果使用 $LIBPATH 和 $LIBS 指定链接库的话，scons 并没有链接这些库。尝试了很多方法，搜索了很多，也没有解决这个问题。

最后是这样解决的。把需要链接的静态库添加到 source 参数中，和其他 cc/cpp 源文件一样放在一起，并且这些库需要使用绝对路径。

通常为了跨平台的方便，需要考虑lib 的前后缀，可以这样写：

link_libraries = ['test1', 'test2']
for lib_name in link_libraries:
    lib_name = "{0}{1}{2}".format(env['LIBPREFIX'], lib_name, env['LIBSUFFIX'])
    abs_lib_name = os.path.join(lib_dir, lib_name)
    sources.append(abs_lib_name)

scons 命令

上面详细讲解了如何使用 python 编写构建脚本，那么写好之后怎么用呢？

常用的几个命令：

编译：

scons

如果需要并行编译：

scons -j4

清理：

scons -c

然后就会按照你脚本里写的方式去构建目标了。

这里贴一下我的项目编译的输出：

$ scons
scons: Reading SConscript files ...
workspace path:/mnt/centos-share/workspace/mux

headers path:
['/mnt/centos-share/workspace/mux/.', '/mnt/centos-share/workspace/mux/third-party/include']


libs path:
['/mnt/centos-share/workspace/mux/./third-party/lib', '/mnt/centos-share/workspace/mux/sbuild/lib']


begin load SConscript

build target:libmbase.a
['/mnt/centos-share/workspace/mux/mbase/src/packet.cc']

build target:libmsghandler.a
['/mnt/centos-share/workspace/mux/message_handle/src/message_handler.cc']

build target:libepoll.a
['/mnt/centos-share/workspace/mux/epoll/src/epoll_tcp_client.cc', '/mnt/centos-share/workspace/mux/epoll/src/epoll_tcp_server.cc']

build target:libtransport.a
['/mnt/centos-share/workspace/mux/transport/src/tcp_transport.cc']

build target:bench_server
['bench_server.cc']

build target:bench_client
['client.cc']

build target:echo_server
['echo_server.cc']

build target:echo_client
['client.cc']

 All Done, Please Check /mnt/centos-share/workspace/mux/sbuild
scons: done reading SConscript files.
scons: Building targets ...
g++ -o demo/bench/bench_server.o -c -ggdb -std=c++11 -I. -Ithird-party/include demo/bench/bench_server.cc
g++ -o demo/bench/client.o -c -ggdb -std=c++11 -I. -Ithird-party/include demo/bench/client.cc
g++ -o demo/echo/client.o -c -ggdb -std=c++11 -I. -Ithird-party/include demo/echo/client.cc
g++ -o demo/echo/echo_server.o -c -ggdb -std=c++11 -I. -Ithird-party/include demo/echo/echo_server.cc
g++ -o epoll/src/epoll_tcp_client.o -c -ggdb -std=c++11 -I. -Ithird-party/include epoll/src/epoll_tcp_client.cc
g++ -o epoll/src/epoll_tcp_server.o -c -ggdb -std=c++11 -I. -Ithird-party/include epoll/src/epoll_tcp_server.cc
g++ -o mbase/src/packet.o -c -ggdb -std=c++11 -I. -Ithird-party/include mbase/src/packet.cc
g++ -o message_handle/src/message_handler.o -c -ggdb -std=c++11 -I. -Ithird-party/include message_handle/src/message_handler.cc
g++ -o transport/src/tcp_transport.o -c -ggdb -std=c++11 -I. -Ithird-party/include transport/src/tcp_transport.cc
ar rc sbuild/lib/libmbase.a mbase/src/packet.o
ranlib sbuild/lib/libmbase.a
ar rc sbuild/lib/libepoll.a epoll/src/epoll_tcp_client.o epoll/src/epoll_tcp_server.o sbuild/lib/libmbase.a
ranlib sbuild/lib/libepoll.a
ar rc sbuild/lib/libtransport.a transport/src/tcp_transport.o sbuild/lib/libepoll.a sbuild/lib/libmbase.a
ranlib sbuild/lib/libtransport.a
ar rc sbuild/lib/libmsghandler.a message_handle/src/message_handler.o sbuild/lib/libmbase.a
ranlib sbuild/lib/libmsghandler.a
g++ -o sbuild/bin/bench_client demo/bench/client.o -Lthird-party/lib -Lsbuild/lib -ltransport -lmsghandler -lepoll -lmbase -lpthread
g++ -o sbuild/bin/bench_server demo/bench/bench_server.o -Lthird-party/lib -Lsbuild/lib -ltransport -lmsghandler -lepoll -lmbase -lpthread
g++ -o sbuild/bin/echo_client demo/echo/client.o -Lthird-party/lib -Lsbuild/lib -ltransport -lmsghandler -lepoll -lmbase -lpthread
g++ -o sbuild/bin/echo_server demo/echo/echo_server.o -Lthird-party/lib -Lsbuild/lib -ltransport -lmsghandler -lepoll -lmbase -lpthread
scons: done building targets.

$ scons -c
scons: Reading SConscript files ...
workspace path:/mnt/centos-share/workspace/mux

headers path:
['/mnt/centos-share/workspace/mux/.', '/mnt/centos-share/workspace/mux/third-party/include']


libs path:
['/mnt/centos-share/workspace/mux/./third-party/lib', '/mnt/centos-share/workspace/mux/sbuild/lib']


begin load SConscript

build target:libmbase.a
['/mnt/centos-share/workspace/mux/mbase/src/packet.cc']

build target:libmsghandler.a
['/mnt/centos-share/workspace/mux/message_handle/src/message_handler.cc']

build target:libepoll.a
['/mnt/centos-share/workspace/mux/epoll/src/epoll_tcp_client.cc', '/mnt/centos-share/workspace/mux/epoll/src/epoll_tcp_server.cc']

build target:libtransport.a
['/mnt/centos-share/workspace/mux/transport/src/tcp_transport.cc']

build target:bench_server
['bench_server.cc']

build target:bench_client
['client.cc']

build target:echo_server
['echo_server.cc']

build target:echo_client
['client.cc']

 All Done, Please Check /mnt/centos-share/workspace/mux/sbuild
scons: done reading SConscript files.
scons: Cleaning targets ...
Removed demo/bench/bench_server.o
Removed demo/bench/client.o
Removed demo/echo/client.o
Removed demo/echo/echo_server.o
Removed epoll/src/epoll_tcp_client.o
Removed epoll/src/epoll_tcp_server.o
Removed mbase/src/packet.o
Removed message_handle/src/message_handler.o
Removed transport/src/tcp_transport.o
Removed sbuild/lib/libmbase.a
Removed sbuild/lib/libepoll.a
Removed sbuild/lib/libtransport.a
Removed sbuild/lib/libmsghandler.a
Removed sbuild/bin/bench_client
Removed sbuild/bin/bench_server
Removed sbuild/bin/echo_client
Removed sbuild/bin/echo_server
scons: done cleaning targets.

写在最后

scons 使用 python 脚本来构建项目，如果对 python 熟悉的话，那么编写编译构建脚本将会大大提高效率，再也不用局限在 Makefile 的蛋疼语法里面了。

当然 scons 的缺点也有，据说在大型项目的时候，可能会很慢。这个我还没碰到过，因为没有用到大型项目中。

下一篇，分享下 cmake 构建 C++ 项目的一些语法和步骤。

cmake教程|cmake入门实战

另外，文中涉及到的项目可以在我的github 找到。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-08-30 于杭州
By 史矛革

自动创建阿里云抢占式实例

2020-08-24T14:23:58.000Z

aliyun_spot

自动创建阿里云抢占式实例。

支持一下作者，购买阿里云

背景

阿里云抢占式实例应该属于阿里云的一种闲置资源利用，性价比非常高，每小时的价格在 0.01 ~ 0.05 每小时，具体根据不同的配置和地域有差别，流量价格小于 1元/G.

抢占式实例最高可以以一折的价格购买 ECS 实例，并能稳定持有该实例至少一个小时。一个小时后，当市场价格高于您的出价或资源供需关系变化时，抢占式实例会被自动释放，请做好数据备份工作。

非常适合爬虫

也适合程序员个人日常开发使用，上班来创建，下班释放，开销基本可以控制在在 1毛 ~ 2 毛。

对于我来说，最近在写一个爬虫，看了很多代理都很贵，免费的又不稳定，正好了解到阿里云的抢占式实例，所以非常满足我的需求。

但是要注意，这个实例是有可能被释放的，但是不用担心，比如香港地区的释放率最近（2020-08-19）小于 3%. 另外，每个人可以最大创建 100 个实例，所以还是不用太担心。

脚本功能

脚本仓库: https://github.com/smaugx/aliyun_spot

自动创建阿里云抢占式实例

支持以下一些参数：

实例所属地域
创建的实例数量
公网出口带宽最大值
实例付费的策略和每小时最大价格
系统盘大小
释放时间（hours）
实例规格(cpu/mem/localdisk/net/ipv6)

手动释放一个或者多个实例

可以使用脚本提前释放一个或者多个实例。

创建的时候可以设置自动释放时间，当然也支持随时手动释放。

如何使用

$ python run_aliyunspot.py
usage: run_aliyunspot.py [-h] [-c [CREATE]] [-r [RELEASE]] [-l [LIST]] [-s [SPOTID [SPOTID ...]]]

aliyunspot, 自动创建阿里云抢占式实例,支持自动/手动释放

optional arguments:
  -h, --help            show this help message and exit
  -c [CREATE], --create [CREATE]
                        create aliyun spot instance and run instance
  -r [RELEASE], --release [RELEASE]
                        release aliyun spot instance
  -l [LIST], --list [LIST]
                        list local record aliyun spot instance
  -s [SPOTID [SPOTID ...]], --spotid [SPOTID [SPOTID ...]]
                        aliyun spot instance_id for release, you can give more than one

1 克隆仓库

$ git clone https://github.com/smaugx/aliyun_spot.git
$ cd aliyun_spot
$ virtualenv -p python3 vv
$ source vv/bin/activate
$ pip install -r requirements.txt

2 调整配置

1
2
3

$ cp test_config.py config.py
# 打开配置文件，根据你自己的需求修改里面的配置选项
$ vim config.py

当然你也可以不用修改其他配置，只需要把你的 access_id 和 access_secret 填进去就可以，以及 key_pair_name 填进去。（见后文章节 #阿里云官网操作# ）

默认创建的是香港地区的抢占式实例，内存 500MB, 1 CPU, 系统盘 20GB, 按流量计费（1元/G), 公网出口带宽 10Mbps, 1 小时候自动释放。

2020-08-19 上述默认配置的实例价格在￥ 0.018 /时。

如果你觉得这个配置(cpu/mem)无法满足你的要求，那么可以调整 instance_type 这个参数，表示实例规格，详细可以查看阿里云官网页面云服务器 ECS > 实例 > 实例规格族

3 创建实例

$ python run_aliyunspot.py -c
will create and run aliyun spot instance, please wait...
Success. Instance creation succeed. InstanceIds: i-j6cfhcbb3o2pepduwgfk
Instance boot successfully: i-j6cfhcbb3o2pepduwgfk
Instances all boot successfully


InstanceId:i-j6cfhcbb3o2pepduwgfk
InstanceName:smaug-000-aliyun-8242148
HostName:smaug-000-aliyun-8242148
PublicIp:47.242.33.179
KeyPairName:aliyunspot
CreationTime:2020-08-24T13:48Z
AutoReleaseTime:2020-08-24T22:48Z


instance info saved in file:./ecs/ecs.i-j6cfhcbb3o2pepduwgfk
now you can use ssh: ssh -i ~/.ssh/aliyunspot.pem root@47.242.33.179

如上，创建成功。然后接下来就可以使用 ssh 登录：

1	$ ssh -i ~/.ssh/~/.ssh/aliyunspot.pem root@8.210.245.226

4 列出实例

1
2
3

$ python run_aliyunspot.py -l
list all local record instance:
['i-j6caz353cisgl3fzenwi', 'i-j6cbyis12fb1fpzk59fv', 'i-j6cfhcbb3o2pepduwgfk']

注意，上面仅仅是把之前创建并保存的实例信息从文件当中读取出来，并没有与 aliyun 交互。

5 释放实例

$ python run_aliyunspot.py -r -s i-j6caz353cisgl3fzenwi i-j6cbyis12fb1fpzk59fv
will release aliyun spot instance:
['i-j6caz353cisgl3fzenwi', 'i-j6cbyis12fb1fpzk59fv']
please wait...

release instance:["i-j6caz353cisgl3fzenwi", "i-j6cbyis12fb1fpzk59fv"] done

阿里云官网操作

上面提到了几个配置是需要在阿里云官网操作的。

阿里云官网的使用还是挺复杂的，因为功能太多了，花费了我至少一个上午的时间才熟悉了整个操作，完成了整个脚本

所以整理了这个脚本方便大家使用，对阿里云的操作只需要下面几个：

注册一个阿里云账号，这个不用说了吧
充值 100 元以上，比如 130 元。因为创建实例账号里至少要 100 元
点击 https://ram.console.aliyun.com/overview 创建一个用户组，分配权限 AliyunECSFullAccess 和 AliyunVPCFullAccess
还是上一步的页面，添加 ram 子账号，添加到刚才创建的用户组，这个账号会用来编程访问 aliyun API
还是上一步的页面，为这个ram 子账号创建 AccessKey。记得保存好。
在 https://ecs.console.aliyun.com/ 页面选择网络与安全-密钥对，创建密钥对 aliyunspot (名字任意），会自动下载这个私钥，记得保存好，一般要放到 ~/.ssh 目录下，并且记得 chmod 600 aliyunspot.pem

OK, 到这里基本上得到了我们脚本里需要的几个配置：

access_id
access_secret
key_pair_name

把上述几个配置填到 config.py 中即可。

然后开始创建和管理你的实例吧！！

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-08-24 于杭州
By 史矛革

附

valgrind massif 分析内存问题

2020-06-16T00:23:58.000Z

Valgrind Massif

valgrind 是什么，这里直接引用其他人的博客：

Valgrind是一套Linux下，开放源代码（GPL
V2）的仿真调试工具的集合。Valgrind由内核（core）以及基于内核的其他调试工具组成。

内核类似于一个框架（framework），它模拟了一个CPU环境，并提供服务给其他工具；而其他工具则类似于插件 (plug-in)，利用内核提供的服务完成各种特定的内存调试任务。
Valgrind的体系结构如下图所示：

Massif 命令行选项

关于 massif 命令行选项，可以直接查看 valgrind 的 help 信息：


MASSIF OPTIONS
       --heap= [default: yes]
           Specifies whether heap profiling should be done.

       --heap-admin= [default: 8]
           If heap profiling is enabled, gives the number of administrative bytes per block to use. This should be an estimate of the average, since it may vary. For example, the
           allocator used by glibc on Linux requires somewhere between 4 to 15 bytes per block, depending on various factors. That allocator also requires admin space for freed blocks,
           but Massif cannot account for this.

       --stacks= [default: no]
           Specifies whether stack profiling should be done. This option slows Massif down greatly, and so is off by default. Note that Massif assumes that the main stack has size zero
           at start-up. This is not true, but doing otherwise accurately is difficult. Furthermore, starting at zero better indicates the size of the part of the main stack that a user
           program actually has control over.

       --pages-as-heap= [default: no]
           Tells Massif to profile memory at the page level rather than at the malloc'd block level. See above for details.

       --depth= [default: 30]
           Maximum depth of the allocation trees recorded for detailed snapshots. Increasing it will make Massif run somewhat more slowly, use more memory, and produce bigger output
           files.

       --alloc-fn=
           Functions specified with this option will be treated as though they were a heap allocation function such as malloc. This is useful for functions that are wrappers to malloc or
           new, which can fill up the allocation trees with uninteresting information. This option can be specified multiple times on the command line, to name multiple functions.

           Note that the named function will only be treated this way if it is the top entry in a stack trace, or just below another function treated this way. For example, if you have a
           function malloc1 that wraps malloc, and malloc2 that wraps malloc1, just specifying --alloc-fn=malloc2 will have no effect. You need to specify --alloc-fn=malloc1 as well.
           This is a little inconvenient, but the reason is that checking for allocation functions is slow, and it saves a lot of time if Massif can stop looking through the stack trace
           entries as soon as it finds one that doesn't match rather than having to continue through all the entries.

           Note that C++ names are demangled. Note also that overloaded C++ names must be written in full. Single quotes may be necessary to prevent the shell from breaking them up. For
           example:

               --alloc-fn='operator new(unsigned, std::nothrow_t const&)'

       --ignore-fn=
           Any direct heap allocation (i.e. a call to malloc, new, etc, or a call to a function named by an --alloc-fn option) that occurs in a function specified by this option will be
           ignored. This is mostly useful for testing purposes. This option can be specified multiple times on the command line, to name multiple functions.

           Any realloc of an ignored block will also be ignored, even if the realloc call does not occur in an ignored function. This avoids the possibility of negative heap sizes if
           ignored blocks are shrunk with realloc.

           The rules for writing C++ function names are the same as for --alloc-fn above.

       --threshold= [default: 1.0]
           The significance threshold for heap allocations, as a percentage of total memory size. Allocation tree entries that account for less than this will be aggregated. Note that
           this should be specified in tandem with ms_print's option of the same name.

       --peak-inaccuracy= [default: 1.0]
           Massif does not necessarily record the actual global memory allocation peak; by default it records a peak only when the global memory allocation size exceeds the previous peak
           by at least 1.0%. This is because there can be many local allocation peaks along the way, and doing a detailed snapshot for every one would be expensive and wasteful, as all
           but one of them will be later discarded. This inaccuracy can be changed (even to 0.0%) via this option, but Massif will run drastically slower as the number approaches zero.

       --time-unit= [default: i]
           The time unit used for the profiling. There are three possibilities: instructions executed (i), which is good for most cases; real (wallclock) time (ms, i.e. milliseconds),
           which is sometimes useful; and bytes allocated/deallocated on the heap and/or stack (B), which is useful for very short-run programs, and for testing purposes, because it is
           the most reproducible across different machines.

       --detailed-freq= [default: 10]
           Frequency of detailed snapshots. With --detailed-freq=1, every snapshot is detailed.

       --max-snapshots= [default: 100]
           The maximum number of snapshots recorded. If set to N, for all programs except very short-running ones, the final number of snapshots will be between N/2 and N.

       --massif-out-file= [default: massif.out.%p]
           Write the profile data to file rather than to the default output file, massif.out.. The %p and %q format specifiers can be used to embed the process ID and/or the
           contents of an environment variable in the name, as is the case for the core option --log-file.

对其中几个常用的选项做一个说明：

–stacks: 栈内存的采样开关，默认关闭。打开后，会针对栈上的内存也进行采样，会使 massif 性能变慢；
–time-unit：指定用来分析的时间单位。这个选项三个有效值：执行的指令（i），即默认值，用于大多数情况；即时（ms，单位毫秒），可用于某些特定事务；以及在堆（/或者）栈中分配/取消分配的字节（B），用于很少运行的程序，且用于测试目的，因为它最容易在不同机器中重现。这个选项在使用 ms_print 输出结果画图是游泳
–detailed-freq: 针对详细内存快照的频率，默认是 10，即每 10 个快照会有采集一个详细的内存快照
–massif-out-file：采样结束后，生成的采样文件（后续可以使用 ms_print 或者 massif-visualizer 进行分析）

开始采集

经过上面的了解，接下来可以开始内存数据采集了，假设我们需要采集的二进制程序名为 xprogram:

1	valgrind -v --tool=massif --time-unit=B --detailed-freq=1 --massif-out-file=./massif.out ./xprogram someargs

运行一段时间后，采集到足够多的内存数据之后，我们需要停止程序，让它生成采集的数据文件，使用 kill 命令让 valgrind 程序退出。

attention: 这里禁止使用 kill -9 模式去杀进程，不然不会产生采样文件

ms_print 分析采样文件

ms_print 是用来分析 massif 采样得到的内存数据文件的，使用命令为：

1	ms_print ./massif.out

或者把输出保存到文件：

1	ms_print ./massif.out > massif.result

打开 massif.result 看看长啥样：

--------------------------------------------------------------------------------
Command:            ./xprogram someargs
Massif arguments:   --time-unit=B --massif-out-file=./massif.out
ms_print arguments: massif.out
--------------------------------------------------------------------------------


    GB
1.279^                                                                       #
     |                                                                       #
     |                                                                   @  @#
     |                                                                   @::@#
     |                                                                 @:@: @#
     |                                                            @::  @:@: @#
     |                                                      : ::::@: ::@:@: @#
     |                                             @ @@@@ :::::: :@: : @:@: @#
     |                                          :  @:@ @ @: :::: :@: : @:@: @#
     |                                     @  :::::@:@ @ @: :::: :@: : @:@: @#
     |                               @@:::@@::: :: @:@ @ @: :::: :@: : @:@: @#
     |                            :::@ : :@@: : :: @:@ @ @: :::: :@: : @:@: @#
     |                    :: @@::::: @ : :@@: : :: @:@ @ @: :::: :@: : @:@: @#
     |                 :::: :@ :: :: @ : :@@: : :: @:@ @ @: :::: :@: : @:@: @#
     |          @  :::::::: :@ :: :: @ : :@@: : :: @:@ @ @: :::: :@: : @:@: @#
     |        ::@::: : :::: :@ :: :: @ : :@@: : :: @:@ @ @: :::: :@: : @:@: @#
     |      ::::@: : : :::: :@ :: :: @ : :@@: : :: @:@ @ @: :::: :@: : @:@: @#
     |     :: ::@: : : :::: :@ :: :: @ : :@@: : :: @:@ @ @: :::: :@: : @:@: @#
     |   @@:: ::@: : : :::: :@ :: :: @ : :@@: : :: @:@ @ @: :::: :@: : @:@: @#
     | ::@ :: ::@: : : :::: :@ :: :: @ : :@@: : :: @:@ @ @: :::: :@: : @:@: @#
   0 +----------------------------------------------------------------------->GB
     0                                                                   813.9

Number of snapshots: 68
 Detailed snapshots: [2, 7, 16, 21, 24, 25, 30, 32, 33, 34, 41, 44, 46, 48, 51, 52, 58, 59, 61, 64, 65, 66, 67 (peak)]

这张图大概意思就表示堆内存的分配量随着采样时间的变化。从上图可以看到堆内存一直在增长，可能存在一些内存泄露等问题。

往下看还能看到内存的分配栈：

  0              0                0                0             0            0
  1 20,021,463,688      133,278,776      124,687,612     8,591,164            0
  2 45,201,848,936      204,228,232      191,089,596    13,138,636            0
93.57% (191,089,596B) (heap allocation functions) malloc/new/new[], --alloc-fns, etc.
->41.07% (83,886,080B) 0xF088E6: rocksdb::Arena::AllocateNewBlock(unsigned long) (in /chain/xtopchain)
| ->41.07% (83,886,080B) 0xF08500: rocksdb::Arena::AllocateFallback(unsigned long, bool) (in /chain/xtopchain)
|   ->41.07% (83,886,080B) 0xF0886C: rocksdb::Arena::AllocateAligned(unsigned long, unsigned long, rocksdb::Logger*) (in /chain/xtopchain)
|     ->41.07% (83,886,080B) 0xDE62BC: rocksdb::ConcurrentArena::AllocateAligned(unsigned long, unsigned long, rocksdb::Logger*)::{lambda()
|     | ->41.07% (83,886,080B) 0xDE7D9A: char* rocksdb::ConcurrentArena::AllocateImpl<rocksdb::ConcurrentArena::AllocateAligned(unsigned long, unsigned long, rocksdb::Logger*)::{lambda()
|     |   ->41.07% (83,886,080B) 0xDE6371: rocksdb::ConcurrentArena::AllocateAligned(unsigned long, unsigned long, rocksdb::Logger*) (in /chain/xtopchain)
|     |     ->41.07% (83,886,080B) 0xE6FAB0: rocksdb::InlineSkipList<rocksdb::MemTableRep::KeyComparator const&>::AllocateNode(unsigned long, int) (in /chain/xtopchain)
|     |       ->41.07% (83,886,080B) 0xE6F472: rocksdb::InlineSkipList<rocksdb::MemTableRep::KeyComparator const&>::AllocateKey(unsigned long) (in /chain/xtopchain)
|     |         ->41.07% (83,886,080B) 0xE6E40A: rocksdb::(anonymous namespace)::SkipListRep::Allocate(unsigned long, char**) (in /chain/xtopchain)
|     |           ->41.07% (83,886,080B) 0xDE32E3: rocksdb::MemTable::Add(unsigned long, rocksdb::ValueType, rocksdb::Slice const&, rocksdb::Slice const&, bool, rocksdb::MemTablePostProcessInfo*) (in /chain/xtopchain)
|     |             ->41.07% (83,886,080B) 0xE5C218: rocksdb::MemTableInserter::PutCFImpl(unsigned int, rocksdb::Slice const&, rocksdb::Slice const&, rocksdb::ValueType) (in /chain/xtopchain)
|     |               ->41.07% (83,886,080B) 0xE5C92C: rocksdb::MemTableInserter::PutCF(unsigned int, rocksdb::Slice const&, rocksdb::Slice const&) (in /chain/xtopchain)
|     |                 ->41.07% (83,886,080B) 0xE570E4: rocksdb::WriteBatch::Iterate(rocksdb::WriteBatch::Handler*) const (in /chain/xtopchain)
|     |                   ->41.07% (83,886,080B) 0xE598D5: rocksdb::WriteBatchInternal::InsertInto(rocksdb::WriteThread::WriteGroup&, unsigned long, rocksdb::ColumnFamilyMemTables*, rocksdb::FlushScheduler*, bool, unsigned long, rocksdb::DB*, bool, bool, bool) (in /chain/xtopchain)
|     |                     ->41.07% (83,886,080B) 0xD45AD7: rocksdb::DBImpl::WriteImpl(rocksdb::WriteOptions const&, rocksdb::WriteBatch*, rocksdb::WriteCallback*, unsigned long*, unsigned long, bool, unsigned long*, unsigned long, rocksdb::PreReleaseCallback*) (in /chain/xtopchain)
|     |                       ->28.75% (58,720,256B) 0x1013B9C: rocksdb::WriteCommittedTxn::CommitWithoutPrepareInternal() (in /chain/xtopchain)
|     |                       | ->28.75% (58,720,256B) 0x1013653: rocksdb::PessimisticTransaction::Commit() (in /chain/xtopchain)
|     |                       |   ->28.75% (58,720,256B) 0xF40E17: rocksdb::PessimisticTransactionDB::Put(rocksdb::WriteOptions const&, rocksdb::ColumnFamilyHandle*, rocksdb

能看到内存分配的调用堆栈情况，据此可以看到哪里分配的内存较多。

massif-visualizer 可视化分析采样文件

ms_print 一定程度上不够直观，所以祭出另外一个分析内存采样数据的大杀器 – massif-visualizer，它能可视化的展示内存分配随着采样时间的变化情况，并能直观的看到内存分配的排行榜。

注意： massif-visualizer 目前好像只支持 linux 环境，并且具有桌面环境的 Linux. (mac/windows 的版本我没有找到）。

故我们采用 ubuntu-20.04-lts 作为分析环境。

安装软件

直接在软件中心搜索 massif-visualizer，然后安装

启动软件，分析数据

双击 massif-visualizer 启动软件之后，打开并选中某个 massif.out 文件，或者用命令行的方式打开：

1	massif-visualizer ./massif.out

启动后，能直观的看到内存随采样时间的变化情况：

调整上面的选项 Stacked diagrams 值后：

鼠标悬停之后也能看到每条曲线某个 snapshot 对应的内存分配情况。

界面右边是内存调用的堆栈：

点击界面下面的 Allocators 按钮之后，可以看到内存分配的排行榜：

是不是很方便？

写在最后

其实用于分析内存分配情况的利器还可以采用 google-perftools，也是采用对内存采样的方式进行采集，然后生成不同的内存采样文件，结束之后比较两个内存采样文件，就可以分析内存分配情况，同时也能展示初内存分配的函数调用栈。不过相比较于 valgrind 的 massif 插件，google-perftools 是需要代码侵入的，并且不能直观的展示内存随采样时间的变化情况。

而 massif 采样的内存数据文件，借助 massif-visualizer 工具就能直观的感受到内存分配随采样时间的变化情况。

Blog:

rebootcat.com
email: linuxcode2niki@gmail.com

2020-06-16 于杭州
By 史矛革