不改一行代码定位线上性能问题，可能吗？

crossoverJie 2019-01-09 09:47:55

最近时运不佳，几乎天天被线上问题骚扰。前几天刚解决了一个HashSet的并发问题，周六又来了一个性能问题。

大致的现象是：

我们提供出去的一个OpenAPI反应时快时慢，快的时候几十毫秒，慢的时候几秒钟才响应。

一、尝试解决

由于这种不是业务问题，不能直接定位。所以尝试在测试环境复现，但遗憾的是测试环境贼快。

没办法，只能硬着头皮上了。

中途有抱着侥幸心里让运维查看了Nginx里OpenAPI的响应时间，想把锅扔给网络。结果果然打脸了：Nginx里的日志表明响应时间确实有问题。

为了清晰的了解这个问题，我简单梳理了一下调用过程：

整个的流程算是比较常见的分层架构：

客户端请求到Nginx；
Nginx负载了后端的web服务；
web服务通过RPC调用后端的Service服务。

1、日志大法

我们首先想到的是打日志，在可能会慢的方法或接口处记录处理时间，来判断哪里有问题。

但通过刚才的调用链来说，这个请求流程不短。加日志涉及的改动较多，而且万一加漏了还有可能定位不到问题；还有就是改动代码之后，还会涉及到发版上线的问题。

2、工具分析

所以最好的方式就是不改动一行代码把这个问题分析出来。这时就需要一个agent工具了。我们选用了阿里以前开源的Tprofile来使用。

只需要在启动参数中加入-javaagent:/xx/tprofiler.jar即可监控你想要监控的方法耗时，并且可以给你输出报告，非常方便，对代码没有任何侵入性，同时性能影响也较小。

二、工具使用

下面来简单展示下如何使用这个工具：

首先第一步自然是clone源码然后打包，可以克隆我修改过的源码。

因为这个项目阿里多年没有维护了，还残留一些bug，我在它原有的基础上修复了个影响使用的bug，同时做了一些优化。

执行以下脚本即可：

git clone https://github.com/crossoverJie/TProfiler mvn assembly:assembly

到这里之后会在项目的TProfiler/pkg/TProfiler/lib/tprofiler-1.0.1.jar中生成我们要使用的jar包。

接下来只需要将这个jar包配置到启动参数中，同时再配置一个配置文件路径即可。

这个配置文件我copy官方的解释：

最终的启动参数如下：

-javaagent:/TProfiler/lib/tprofiler-1.0.1.jar -Dprofile.properties=/TProfiler/profile.properties

为了模拟排查接口响应慢的问题，我用cicada实现了一个HTTP接口。其中调用了两个耗时方法：

这样当我启动应用时，Tprofile就会在我配置的目录记录它所收集的方法信息。

我访问如下接口几次后，它就会把每个方法的明细响应写入tprofile.log：

http://127.0.0.1:5688/cicada-example/demoAction?name=test&id=10

由左到右每列分别代表为：

线程ID、方法栈深度、方法编号、耗时（毫秒）

但tmethod.log还是空的。这时我们只需要执行这个命令，即可把最新的方法采样信息刷到tmethod.log文件中。

java -cp /TProfiler/tprofiler.jar

com.taobao.profile.client.TProfilerClient 127.0.0.1 50000 flushmethod

flushmethod success

其实就是访问了Tprofile暴露出的一个服务，它会读取、解析tprofile.log，同时写入tmethod.log。其中的端口就是配置文件中的port。

再打开tmethod.log ：

其中会记录方法的信息：

第一行数字为方法的编号，可以通过这个编号去tprofile.log(明细)中查询每次的耗时情况；
行末的数字则是这个方法在源码中最后一行的行号。

其实大部分的性能分析都是统计某个方法的平均耗时。所以还需要执行下面的命令，通过tmethod.log tprofile.log来生成每个方法的平均耗时：

java -cp /TProfiler/tprofiler.jar

com.taobao.profile.analysis.ProfilerLogAnalysis tprofiler.log

tmethod.log topmethod.log topobject.log

print result success

打开topmethod.log就是所有方法的平均耗时：

4为请求次数；
205为平均耗时；
818则为总耗时。

和实际情况是相符的。

方法的明细耗时

这时可能还会有其他需求；比如说我想查询某个方法所有的明细耗时怎么办呢？

官方没有提供，但也是可以的，只是要麻烦一点。

比如我想查看selectDB()的耗时明细，首先得知道这个方法的编号，在tmethod.log中可以看查到：

2 top/crossoverjie/cicada/example/action/DemoAction:selectDB:84

编号为2。

之前我们就知道tprofile.log记录的是明细，所以通过下面的命令即可查看：

grep 2 tprofiler.log

通过第三列方法编号为2的来查看每次执行的明细。

但这样的方式显然不够友好，需要人为来过滤干扰，步骤也多。所以我也准备加上这样一个功能，只需要传入一个方法名称即可查询采集到的所有方法耗时明细。

三、总结

回到之前的问题，线上通过这个工具分析，我们得到了如下结果：

有些方法确实执行时快时慢，但都是和数据库相关的，由于目前数据库压力较大，准备在接下来进行冷热数据分离，以及分库分表；
在第一步操作还没实施之前，将部分写数据库的操作改为异步，减小响应时间；
考虑接入pinpoint这样的APM工具。

其实类似于Tprofile的工具挺多的，找到适合自己的就好。

我们在还没有使用类似于pinpoint这样的分布式跟踪工具之前，应该会大量依赖于这个工具，所以后续说不定也会做一些定制，比如增加一些可视化界面等，可以提高排查效率。

最新评论

: 访客 2024年04月08日

如果字段的最大可能长度超过255字节，那么长度值可能…

: 访客 2024年03月04日

只能说作者太用心了，优秀

: 访客 2024年02月23日

感谢详解

: 访客 2024年02月20日

一般干个7-8年（即30岁左右），能做到年入40w-50w；有…

: 访客 2023年08月20日

230721

活动预告

即将开始

2026年XCOPS智能运维管理人年会-广州站报名开始啦

时间：2026-05-22形式：线下活动
即将开始

直播预告丨AI驱动智能运维：从被动排障到主动风险防御

时间：2026-05-08形式：线上分享
即将开始

别再去「龙虾会」了！这是只给 Agent Builder 的北上杭闭门局 | 2026 春季首发

时间：2026-04-24形式：线下活动
即将开始

4月18日，与资深架构师共话AI研发变革，更有压轴技术辩论「开源vs闭源」如何选择？

时间：2026-04-18形式：线下活动
已结束

直播预告丨基于Kibana的数据可视化平台建设实践

时间：2026-03-25形式：线上活动
已结束

3 月 7 日深圳｜Data for AI Meetup：5 位开源专家聊 AI 数据基础设施实战

时间：2026-03-07形式：线下活动
已结束

OceanBase 社区年度社区嘉年华解锁！AI Coding、社区开放麦、开源集市、社区圆桌……1月31日等你共聚！

时间：2026-01-31形式：线下活动
已结束

1 月 24 日北京｜Data for AI Meetup：Agent 时代的数据基础设施正在如何重构？

时间：2026-01-24形式：线上活动
已结束

直播预告丨AIOps如何从Demo走向规模化落地

时间：2026-01-28形式：线上活动
已结束

AI新质生产力研讨会

时间：2026-01-24形式：线下活动
已结束

直播预告丨携程全链路压测体系建设：节日洪峰场景下的落地实践

时间：2026-01-14形式：线上活动
已结束

直播预告丨大模型在数据安全领域的应用探索

时间：2026-01-07形式：线上活动
已结束

北京开发者集结！12月21日，共话大模型推理与开源生态

时间：2025-12-21形式：线下活动
已结束

Data for AI Meetup @上海 12/20（周六）聚焦AI多模态湖仓

时间：2025-12-20形式：线下活动
已结束

ITCP联盟第五届技术大会【AI应用专场】报名火热开启！

时间：2025-12-13形式：线下活动
查看更多

不改一行代码定位线上性能问题，可能吗？

降本的Kubernetes何时成了“成本刺客”？

YouTube如何利用MySQL支撑24.9亿用户？

人肉运维100次后，年底出了P0级故障……

关于国产数据库我不得不说

分库分表，可能真的要退出历史舞台了！