
去年帮一家跨境电商做架构评审。他们的业务跑在 AWS 上,灾备用阿里云,数据分析用 Google BigQuery。听起来很合理——多云战略,规避厂商锁定,各取所长。
但一问到网络怎么连的,技术负责人挠了挠头:“就……公网 VPN 啊,反正数据量不大。”
我追问:“那你现在跨云延迟多少?”
他打开监控看了一眼,沉默了。AWS 到阿里云的延迟平均 80ms,高峰能到 200ms。数据同步任务经常超时失败,灾备切换演练从来没成功过——因为网络根本不通。
这是多云最真实的尴尬:战略很高瞻远瞩,落地却卡在网络上。
今天咱们聊聊多云网络互联。不是那种“VPN 怎么配”的教程,而是帮你理清楚:什么时候该用 VPN,什么时候该上专线,云厂商的跨云产品到底是不是坑。
01 跨云互联的三种方式
先看市面上有什么选项。
第一,公网 VPN。 最便宜,也最常见。IPsec 隧道两端一配,云之间就能通了。优点是什么?不要钱(除了云主机和带宽费)。缺点是什么?不稳定,延迟抖,带宽没保障。
第二,云厂商的专线/云联网产品。 AWS Direct Connect、阿里云高速通道、腾讯云云联网。本质是把你的网络接入云厂商的骨干网,走内部线路,绕过公网。优点是稳定、低延迟、有 SLA。缺点是贵,且配置复杂。
第三,第三方 SD-WAN。 像 Aryaka、Bigleaf 这类服务商,在全球建了自己的网络节点,你买他们的服务,把各云连上去。优点是体验介于 VPN 和专线之间,管理统一。缺点是多一个供应商,多一层成本。
三种方式,没有绝对的好坏,只有合不合适。
02 误区一:VPN 不要钱?算过账再说
很多人选 VPN 是因为“免费”。但你算过三笔账吗?
第一,云主机成本。 跑 VPN 需要虚拟机吧?至少两台,跨云各一台,规格还不能太低(IPsec 挺吃 CPU)。一个月下来,几百块没了。
第二,带宽成本。 VPN 走公网,但公网流量云厂商也是要收钱的。尤其跨 Region 甚至跨洲的流量,单价不低。
第三,运维成本。 VPN 隧道断了谁修?路由震荡谁排查?深夜被叫醒的时候,你还觉得免费吗?
我见过一个创业公司,为了省专线钱用 VPN,结果数据同步每天失败,两个工程师轮流值班盯着。三个月后算了笔账:专线的钱,还不够付这两个人的加班费。
反常识观点:VPN 可能是最贵的选项,只是钱花在了你看不见的地方。
03 误区二:专线一定比公网快
这句话只说对了一半。
专线确实更稳定,延迟抖动小,但绝对延迟不一定更低。
为什么?因为专线的路由不一定最优。云厂商的专线接入点可能不在你附近,流量可能要绕一大圈才能进骨干网。而公网经过多年优化,有时候反而能找到更短的路径。
一个真实数据:某公司从上海连 AWS 东京,公网延迟约 45ms,走专线反而 55ms——因为专线要先绕到北京再出境。
所以选专线前,一定要先做延迟测试。云厂商一般都提供测试 IP,先 Ping 两周,拿到 P95 和 P99 数据,再决定。
04 误区三:云厂商的“云联网”是万能的
AWS 有 Transit Gateway,阿里云有 CEN,Azure 有 Virtual WAN。这些产品很强大,但有个共同的问题:它们是为单一云设计的,跨云只是“顺便支持”。
什么意思?
如果你用 AWS TGW 连阿里云,本质上还是要在两边建 VPN 或专线,TGW 只管 AWS 这一侧的路由分发。
如果你用阿里云 CEN 连 AWS,CEN 也只能管阿里云自己的网络,跨云部分还是要靠外部连接。
这些产品解决了单云内的复杂网络拓扑(比如几十个 VPC 互连),但没有解决跨云的物理连接。
真正跨云互联,你还是得面对那两个根本问题:物理链路怎么通?路由怎么交换?
05 到底怎么选?
给一个决策框架,照着走不容易错。
第一步:看流量特征。
如果只是偶尔同步点数据,对延迟不敏感,VPN 够用。
如果是业务实时调用(比如跨云读写数据库),必须上专线或 SD-WAN。
如果是灾备,专线是必须的——你永远不希望灾备演练时网络掉链子。
第二步:看距离和区域。
同 Region 跨云(比如都在上海),可以考虑用云厂商的本地专线产品,延迟能做到 2ms 以内。
跨 Region 甚至跨洲,公网可能意外地好用,先测再决定。
如果涉及中国大陆和海外互连,合规因素也要考虑(专线要走合法跨境通道)。
第三步:看预算和团队。
预算少,团队有网络高手,VPN + 动态路由(BGP)可以玩得很溜。
预算中等,可以考虑托管 SD-WAN,省心一些。
预算充足,业务关键,直接上双专线冗余,找运营商和云厂商一起设计。
06 进阶:用 BGP 实现跨云高可用
如果你的跨云流量很重要,VPN 和专线可以同时用,再用 BGP 做动态选路。
原理不复杂:在两端各建两条隧道(一条 VPN,一条专线),跑 BGP 宣告相同网段。BGP 会根据 AS 路径长度、MED 等属性选路。专线断了自动切到 VPN,恢复后自动切回来。
这套方案在单一云内很成熟,跨云也能用,就是配置复杂些。但好处是故障自动切换,半夜不用爬起来修隧道。
07 最后给你一个“灵魂三问”
每次给客户做跨云网络设计,我都会问三个问题。你也可以问问自己:
你的业务真的需要跨云实时互通吗? 很多场景其实可以用异步解耦(比如消息队列、数据同步),没必要做实时网络互联。能异步就别同步,这是架构上的第一原则。
你测过真实延迟和丢包率吗? 不要看云厂商官网给的“理论延迟”,自己买两台机器测两周。网络是玄学,数据说了算。
你算过五年总成本吗? 专线有初装费、月租费、端口费、流量费。VPN 有云主机、带宽、人力。把五年账单拉平比,有时候结论会让你意外。
写在最后
回到开头那家跨境电商。后来我们帮他们重新设计了网络:核心交易走专线,数据分析走 VPN,BGP 做自动切换。专线挂了业务不中断,VPN 慢点但还能跑。成本比原来翻了一倍,但故障率从每周一次降到零。
技术负责人后来说了一句话我印象很深:“以前总觉得网络是‘通就行’,现在才明白,网络架构选错了,后面的所有优化都是补丁。”
多云不是目的,稳定才是。网络是那个把多云“粘”在一起的东西,选对了,事半功倍;选错了,天天救火。
你的跨云网络,现在粘得牢吗?