在 Go Serverless 环境中通过 UDP 代理实现对 Memcached 的低延迟访问

后端架构

文章字数: 3.9k

阅读时长: 18 分

在 Serverless 函数中直接与一个传统的、基于 TCP 长连接的服务（如 Memcached）交互，通常是一种反模式。让我们看一段在 AWS Lambda 中运行的 Go 代码，它尝试在每次调用时连接 Memcached。

package main

import (
	"fmt"
	"os"

	"github.com/bradfitz/gomemcache/memcache"
	"github.com/aws/aws-lambda-go/lambda"
)

// 全局客户端变量，期望在多次调用之间复用
// 但在冷启动后，它依然是 nil
var mc *memcache.Client

func getMemcachedClient() *memcache.Client {
	// 这是一个常见的、但极其低效的实现
	if mc == nil {
		// 每次冷启动或因某些原因客户端失效时，都会重新建立连接
		// 在高并发下，这会导致大量 TCP 连接建立和拆除
		server := os.Getenv("MEMCACHED_SERVER")
		if server == "" {
			// 在真实项目中，这里应该是结构化日志
			fmt.Println("Error: MEMCACHED_SERVER environment variable not set.")
			return nil
		}
		mc = memcache.New(server)
	}
	return mc
}

func HandleRequest() (string, error) {
	client := getMemcachedClient()
	if client == nil {
		return "", fmt.Errorf("failed to initialize memcached client")
	}

	// 简单的 Set 和 Get 操作
	key := "lambda-test-key"
	err := client.Set(&memcache.Item{Key: key, Value: []byte("hello from lambda")})
	if err != nil {
		return "", fmt.Errorf("failed to set item: %w", err)
	}

	item, err := client.Get(key)
	if err != nil {
		return "", fmt.Errorf("failed to get item: %w", err)
	}

	return string(item.Value), nil
}

func main() {
	lambda.Start(HandleRequest)
}

这段代码的问题不在于功能，而在于性能。Serverless 函数的执行环境是短暂的。虽然热函数可以复用全局变量 mc，但在冷启动时，或者当 Lambda 运行时回收旧环境时，memcache.New() 必然会被调用。TCP 连接的建立涉及三次握手，在 VPC 内部这通常也需要数毫秒到数十毫秒。对于一个期望在亚毫秒级完成的缓存操作，这个连接开销是毁灭性的。在高并发场景下，成百上千的函数实例同时尝试连接 Memcached，不仅会耗尽函数执行时间，还可能瞬间打垮 Memcached 服务器的连接数限制。

这里的核心矛盾是：无状态、短生命周期的计算单元（Serverless 函数）与有状态、长生命周期的网络连接（TCP 连接池）之间的不匹配。

标准的解决方案是使用专为 Serverless 设计的缓存服务，例如 AWS ElastiCache for Redis 的 IAM 认证或 DynamoDB Accelerator (DAX)。但如果项目由于历史原因、成本控制或技术栈限制，必须使用现有的 Memcached 集群，我们就需要一个更具创造性的解决方案。

初步构想是引入一个代理层。这个代理是一个长生命周期的服务，它负责维护一个到 Memcached 的持久化 TCP 连接池。Serverless 函数不再直接与 Memcached 通信，而是与这个代理交互。这样，连接管理的复杂性就被从函数中剥离了。

接下来是技术选型：函数与代理之间使用什么协议？

HTTP/REST: 通用，易于实现。但对于内部高性能通信，HTTP 头部的开销相对较大，且连接管理（Keep-Alive）在 Serverless 客户端依然存在一些挑战。
gRPC: 性能优异，基于 HTTP/2。但它同样是基于 TCP 长连接的，将问题从 “函数-Memcached” 转移到了 “函数-代理”，没有解决根本矛盾。
UDP: 无连接，开销极低。一次请求就是一个 UDP 数据包，一次响应是另一个。这完美契合 Serverless 函数“即用即走”的模式。函数不需要建立和维护任何连接。

决定采用 UDP。代理将监听一个 UDP 端口，接收来自函数的请求，通过其内部的 Memcached TCP 连接池执行操作，然后将结果通过 UDP 返回给函数的源地址。我们将用 Go 来实现这个代理，因为它出色的网络性能和并发模型正适合这个场景。

第一步：定义函数与代理间的二进制协议

为了最大化性能，我们避免使用 JSON 或其他文本格式，而是设计一个简单的二进制协议。

// file: protocol/protocol.go
package protocol

import (
	"bytes"
	"encoding/binary"
	"fmt"
	"io"
)

// OpCode 定义了操作类型
type OpCode byte

const (
	OpGet OpCode = 0x01
	OpSet OpCode = 0x02
	OpDel OpCode = 0x03
	// 响应状态码
	OpOK      OpCode = 0x80
	OpNotFound OpCode = 0x81
	OpError    OpCode = 0x82
)

// Request 代表从函数发往代理的请求
type Request struct {
	Op      OpCode
	Key     string
	Value   []byte
	TTL     uint32 // 仅用于 Set 操作
}

// Response 代表从代理返回给函数的响应
type Response struct {
	Status OpCode
	Value  []byte
}

// Marshal 将请求编码为字节流
// 格式: [Op(1B)] [KeyLen(2B)] [ValueLen(4B)] [TTL(4B)] [Key] [Value]
func (r *Request) Marshal() ([]byte, error) {
	var buf bytes.Buffer
	buf.WriteByte(byte(r.Op))

	keyBytes := []byte(r.Key)
	if len(keyBytes) > 65535 {
		return nil, fmt.Errorf("key too long")
	}
	binary.Write(&buf, binary.BigEndian, uint16(len(keyBytes)))
	binary.Write(&buf, binary.BigEndian, uint32(len(r.Value)))
	binary.Write(&buf, binary.BigEndian, r.TTL)

	buf.Write(keyBytes)
	buf.Write(r.Value)

	return buf.Bytes(), nil
}

// Unmarshal 从字节流解码请求
func (r *Request) Unmarshal(data []byte) error {
	reader := bytes.NewReader(data)
	op, err := reader.ReadByte()
	if err != nil {
		return err
	}
	r.Op = OpCode(op)

	var keyLen uint16
	if err := binary.Read(reader, binary.BigEndian, &keyLen); err != nil {
		return err
	}

	var valLen uint32
	if err := binary.Read(reader, binary.BigEndian, &valLen); err != nil {
		return err
	}

	if err := binary.Read(reader, binary.BigEndian, &r.TTL); err != nil {
		return err
	}

	keyBuf := make([]byte, keyLen)
	if _, err := io.ReadFull(reader, keyBuf); err != nil {
		return err
	}
	r.Key = string(keyBuf)

	r.Value = make([]byte, valLen)
	if _, err := io.ReadFull(reader, r.Value); err != nil {
		return err
	}

	return nil
}

// Marshal 将响应编码为字节流
// 格式: [Status(1B)] [Value]
func (r *Response) Marshal() ([]byte, error) {
	var buf bytes.Buffer
	buf.WriteByte(byte(r.Status))
	buf.Write(r.Value)
	return buf.Bytes(), nil
}

// Unmarshal 从字节流解码响应
func (r *Response) Unmarshal(data []byte) error {
	if len(data) < 1 {
		return fmt.Errorf("invalid response data")
	}
	r.Status = OpCode(data[0])
	r.Value = data[1:]
	return nil
}

这个协议非常紧凑，没有浪费任何一个字节。

第二步：构建 Go UDP 代理服务器

代理服务器是整个方案的核心。它必须稳定、高效，并能妥善管理 Memcached 连接池。

// file: proxy/main.go
package main

import (
	"log"
	"net"
	"os"
	"strconv"
	"strings"

	"github.com/bradfitz/gomemcache/memcache"
	"github.com/my-project/protocol" // 引入我们定义的协议
)

// MemcachedConnPool 管理 Memcached 客户端连接
type MemcachedConnPool struct {
	clients chan *memcache.Client
}

// NewMemcachedConnPool 创建一个新的连接池
func NewMemcachedConnPool(servers []string, maxConns int) (*MemcachedConnPool, error) {
	pool := &MemcachedConnPool{
		clients: make(chan *memcache.Client, maxConns),
	}
	for i := 0; i < maxConns; i++ {
		client := memcache.New(servers...)
		// 这里的 Ping 很重要，能确保放入池中的连接是有效的
		if err := client.Ping(); err != nil {
			log.Printf("Failed to connect to memcached on initial ping: %v. Retrying might be needed.", err)
			// 在生产环境中，这里应该有更复杂的重试或健康检查逻辑
		}
		pool.clients <- client
	}
	return pool, nil
}

// Get 从池中获取一个连接
func (p *MemcachedConnPool) Get() *memcache.Client {
	return <-p.clients
}

// Put 将连接放回池中
func (p *MemcachedConnPool) Put(c *memcache.Client) {
	p.clients <- c
}


func main() {
	udpAddr := os.Getenv("UDP_LISTEN_ADDR")
	if udpAddr == "" {
		udpAddr = ":9981"
	}
	mcServersStr := os.Getenv("MEMCACHED_SERVERS")
	if mcServersStr == "" {
		log.Fatal("MEMCACHED_SERVERS environment variable not set (e.g., '10.0.1.10:11211,10.0.1.11:11211')")
	}
	poolSizeStr := os.Getenv("POOL_SIZE")
	if poolSizeStr == "" {
		poolSizeStr = "50"
	}
	poolSize, err := strconv.Atoi(poolSizeStr)
	if err != nil {
		log.Fatalf("Invalid POOL_SIZE: %v", err)
	}

	mcServers := strings.Split(mcServersStr, ",")
	log.Printf("Starting UDP proxy on %s, connecting to Memcached at %v with pool size %d", udpAddr, mcServers, poolSize)

	// 初始化连接池
	connPool, err := NewMemcachedConnPool(mcServers, poolSize)
	if err != nil {
		log.Fatalf("Failed to create Memcached connection pool: %v", err)
	}

	addr, err := net.ResolveUDPAddr("udp", udpAddr)
	if err != nil {
		log.Fatalf("Failed to resolve UDP address: %v", err)
	}

	conn, err := net.ListenUDP("udp", addr)
	if err != nil {
		log.Fatalf("Failed to listen on UDP port: %v", err)
	}
	defer conn.Close()
	
	// 在真实项目中，这里应该使用一个有大小限制的 channel 或 worker pool 来防止goroutine无限增长
	// 但为了演示核心逻辑，我们为每个请求创建一个 goroutine
	buffer := make([]byte, 2048) // 2KB buffer, 应该足够大多数缓存场景
	for {
		n, clientAddr, err := conn.ReadFromUDP(buffer)
		if err != nil {
			log.Printf("Error reading from UDP: %v", err)
			continue
		}

		// 为每个请求启动一个 goroutine 处理，避免阻塞主监听循环
		go handleRequest(conn, clientAddr, buffer[:n], connPool)
	}
}

func handleRequest(conn *net.UDPConn, addr *net.UDPAddr, data []byte, pool *MemcachedConnPool) {
	var req protocol.Request
	if err := req.Unmarshal(data); err != nil {
		log.Printf("Failed to unmarshal request from %s: %v", addr.String(), err)
		return
	}

	mcClient := pool.Get()
	defer pool.Put(mcClient)

	var resp protocol.Response
	switch req.Op {
	case protocol.OpGet:
		item, err := mcClient.Get(req.Key)
		if err == memcache.ErrCacheMiss {
			resp.Status = protocol.OpNotFound
		} else if err != nil {
			log.Printf("Memcached GET error for key '%s': %v", req.Key, err)
			resp.Status = protocol.OpError
			resp.Value = []byte(err.Error())
		} else {
			resp.Status = protocol.OpOK
			resp.Value = item.Value
		}

	case protocol.OpSet:
		err := mcClient.Set(&memcache.Item{Key: req.Key, Value: req.Value, Expiration: int32(req.TTL)})
		if err != nil {
			log.Printf("Memcached SET error for key '%s': %v", req.Key, err)
			resp.Status = protocol.OpError
			resp.Value = []byte(err.Error())
		} else {
			resp.Status = protocol.OpOK
		}

	case protocol.OpDel:
		err := mcClient.Delete(req.Key)
		if err != memcache.ErrCacheMiss && err != nil {
			log.Printf("Memcached DELETE error for key '%s': %v", req.Key, err)
			resp.Status = protocol.OpError
			resp.Value = []byte(err.Error())
		} else {
			resp.Status = protocol.OpOK
		}
	
	default:
		log.Printf("Unknown opcode from %s: %v", addr.String(), req.Op)
		resp.Status = protocol.OpError
		resp.Value = []byte("unknown operation")
	}

	respBytes, err := resp.Marshal()
	if err != nil {
		log.Printf("Failed to marshal response: %v", err)
		return
	}

	_, err = conn.WriteToUDP(respBytes, addr)
	if err != nil {
		log.Printf("Failed to write UDP response to %s: %v", addr.String(), err)
	}
}

这段代码实现了一个功能完备的代理。它通过环境变量配置监听地址和 Memcached 服务器，并使用一个 channel 来实现简单的连接池。每个 UDP 请求都在一个独立的 goroutine 中处理，保证了高并发性。

第三步：改造 Serverless 函数以使用 UDP 代理

现在，我们重写 Lambda 函数，让它通过新的 UDP 客户端与代理通信。

// file: lambda/main.go
package main

import (
	"context"
	"fmt"
	"net"
	"os"
	"time"

	"github.com/aws/aws-lambda-go/lambda"
	"github.com/my-project/protocol" // 引入我们定义的协议
)

// UDPClient 是与代理通信的客户端
type UDPClient struct {
	conn      *net.UDPConn
	proxyAddr *net.UDPAddr
	timeout   time.Duration
}

var udpClient *UDPClient

// newUDPClient 初始化 UDP 客户端。注意它只解析地址，并不建立连接。
func newUDPClient(proxyAddrStr string, timeout time.Duration) (*UDPClient, error) {
	proxyAddr, err := net.ResolveUDPAddr("udp", proxyAddrStr)
	if err != nil {
		return nil, fmt.Errorf("failed to resolve proxy address: %w", err)
	}
	
	// 监听一个随机的本地端口用于接收响应
	conn, err := net.ListenUDP("udp", &net.UDPAddr{IP: net.IPv4zero, Port: 0})
	if err != nil {
		return nil, fmt.Errorf("failed to listen on local UDP port: %w", err)
	}

	return &UDPClient{
		conn:      conn,
		proxyAddr: proxyAddr,
		timeout:   timeout,
	}, nil
}

// Get 执行 Get 操作
func (c *UDPClient) Get(key string) ([]byte, error) {
	req := protocol.Request{Op: protocol.OpGet, Key: key}
	resp, err := c.sendAndReceive(req)
	if err != nil {
		return nil, err
	}
	if resp.Status == protocol.OpNotFound {
		return nil, memcache.ErrCacheMiss // 返回标准库中的错误，方便上层处理
	}
	if resp.Status != protocol.OpOK {
		return nil, fmt.Errorf("proxy error: %s", string(resp.Value))
	}
	return resp.Value, nil
}

// Set 执行 Set 操作
func (c *UDPClient) Set(key string, value []byte, ttl uint32) error {
	req := protocol.Request{Op: protocol.OpSet, Key: key, Value: value, TTL: ttl}
	resp, err := c.sendAndReceive(req)
	if err != nil {
		return err
	}
	if resp.Status != protocol.OpOK {
		return nil, fmt.Errorf("proxy error: %s", string(resp.Value))
	}
	return nil
}

// sendAndReceive 是核心的通信逻辑
func (c *UDPClient) sendAndReceive(req protocol.Request) (*protocol.Response, error) {
	reqBytes, err := req.Marshal()
	if err != nil {
		return nil, fmt.Errorf("failed to marshal request: %w", err)
	}

	_, err = c.conn.WriteToUDP(reqBytes, c.proxyAddr)
	if err != nil {
		return nil, fmt.Errorf("failed to write to proxy: %w", err)
	}
	
	// UDP 是不可靠的，因此必须设置一个读取超时
	deadline := time.Now().Add(c.timeout)
	c.conn.SetReadDeadline(deadline)

	buffer := make([]byte, 2048)
	n, _, err := c.conn.ReadFromUDP(buffer)
	if err != nil {
		// 超时错误是最可能发生的网络错误
		if netErr, ok := err.(net.Error); ok && netErr.Timeout() {
			return nil, fmt.Errorf("proxy response timeout after %v", c.timeout)
		}
		return nil, fmt.Errorf("failed to read from proxy: %w", err)
	}

	var resp protocol.Response
	if err := resp.Unmarshal(buffer[:n]); err != nil {
		return nil, fmt.Errorf("failed to unmarshal response: %w", err)
	}

	return &resp, nil
}


// getClient 在 Lambda 的全局作用域中初始化并复用 UDP 客户端
func getClient() (*UDPClient, error) {
	if udpClient == nil {
		proxyAddr := os.Getenv("MEMCACHED_PROXY_ADDR")
		if proxyAddr == "" {
			return nil, fmt.Errorf("MEMCACHED_PROXY_ADDR not set")
		}
		// 在生产环境中，超时应该可配置
		client, err := newUDPClient(proxyAddr, 50*time.Millisecond)
		if err != nil {
			return nil, fmt.Errorf("failed to initialize udp client: %w", err)
		}
		udpClient = client
	}
	return udpClient, nil
}


func HandleRequest(ctx context.Context) (string, error) {
	client, err := getClient()
	if err != nil {
		// 结构化日志记录初始化失败
		return "", err
	}
	
	key := "lambda-test-key-via-proxy"
	value := "hello from lambda via udp proxy"
	
	err = client.Set(key, []byte(value), 60)
	if err != nil {
		return "", fmt.Errorf("failed to set item via proxy: %w", err)
	}

	retrievedValue, err := client.Get(key)
	if err != nil {
		return "", fmt.Errorf("failed to get item via proxy: %w", err)
	}

	return string(retrievedValue), nil
}


func main() {
	lambda.Start(HandleRequest)
}

新的 Lambda 代码性能模型完全不同了。getClient() 函数在冷启动时几乎没有网络开销，它只是解析地址和在本地创建一个 UDP socket。每次 HandleRequest 调用时，sendAndReceive 的开销仅仅是 VPC 内部一次 UDP 包的往返时间，这通常在 1ms 以内。我们彻底消除了 TCP 连接建立的延迟。

架构与部署

最终的架构如下：

graph TD
    subgraph AWS Lambda Environment
        A[Lambda Function 1]
        B[Lambda Function 2]
        C[...]
    end

    subgraph VPC
        A -- UDP --> D{Go UDP Proxy};
        B -- UDP --> D;
        C -- UDP --> D;

        D -- TCP Connection Pool --> E[Memcached Cluster];
    end

    style D fill:#f9f,stroke:#333,stroke-width:2px

这个 Go 代理可以部署为一个长期运行的服务。常见的选择有：

EC2 实例: 部署在一个小型的 t3.micro 或 t4g.small 实例上。
AWS Fargate / ECS: 将代理容器化，作为一个 ECS 服务运行，更符合云原生实践。
Kubernetes Pod: 如果你已经在使用 EKS，可以将其部署为一个 Deployment。

关键是代理必须与 Lambda 函数以及 Memcached 集群位于同一个 VPC 内，以保证最低的网络延迟。

这个方案的成本考量也很重要。我们用一个 7x24 小时运行的代理服务（EC2 或 Fargate）的固定成本，换取了大量 Lambda 函数调用时节省的执行时间和更高的性能。在高并发场景下，由于函数执行时间显著缩短，这种交换通常是划算的。

局限性与未来迭代路径

这个方案并非没有缺点，它是一个在特定约束下的权衡。

UDP 的不可靠性: 我们当前的实现没有处理丢包。如果 Set 操作的请求包或响应包丢失，操作就静默失败了。对于缓存场景，这或许可以接受，但对于更关键的用途，这是个问题。一个改进方向是在我们的二进制协议中加入一个请求 ID，并在客户端实现简单的重试机制。
单点故障与扩展性: 当前的单个代理实例是单点故障。如果代理崩溃，所有 Lambda 函数的缓存功能都会失效。生产环境需要部署多个代理实例，并通过支持 UDP 的网络负载均衡器（NLB）将流量分发过去。
安全性: 代理的 UDP 端口目前在 VPC 内是开放的。虽然 VPC 内部相对安全，但增加一层简单的认证机制（例如，在协议中加入一个预共享密钥）可以提供更好的保护。
请求/响应大小限制: UDP 数据包的大小有限制（通常在 64KB 以下，但实际可用的大小更小）。这个方案不适合存储非常大的缓存项。协议中需要加入对数据包大小的检查。

尽管存在这些局限，但通过构建一个外部连接代理，我们成功地解决了 Serverless 架构与传统 TCP 服务之间的核心矛盾，用一个可控的、专门的服务承担了连接管理的复杂性，从而解放了 Serverless 函数，使其能够专注于业务逻辑并实现极致的执行性能。

Serverless Go Memcached 性能优化网络编程

使用Podman构建一个面向Ray分布式任务的安全沙箱执行器

2023-10-27 后端架构

Ray Security Podman 测试编程语言

为 LlamaIndex RAG 应用构建从 Recoil 前端到 Koa 后端的全链路追踪

2023-10-27 可观测性

LlamaIndex Recoil Koa OpenTelemetry RAG