如何应用Tcpdump分析应用性能

敏捷运维，成就数字化业务
应用性能实战：如何用tcpdump分析应用性能
刘成穆--优云软件

01
02
03
04
基础知识准备
应用性能分析过程详解
其它和附录
大纲

准备--TCP/IP数据包格式
TCP Header
Offsets Octet 0 1 2 3
Octet Bit 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
0 0 Source port Destination port
4 32 Sequence number
8 64 Acknowledgment number (if ACK set)
12 96 Data offset
Reserved
0 0 0
N
S
C
W
R
E
C
E
U
R
G
A
C
K
P
S
H
R
S
T
S
Y
N
F
I
N
Window Size
16 128 Checksum Urgent pointer (if URG set)
20
...
160
...
Options (if data offset > 5. Padded at the end with "0" bytes if necessary.)
...
IPv4 Header Format
Offsets Octet 0 1 2 3
Octet Bit 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
0 0 Version IHL DSCP ECN Total Length
4 32 Identification Flags Fragment Offset
8 64 Time To Live Protocol Header Checksum
12 96 Source IP Address
16 128 Destination IP Address
20 160
Options (if IHL > 5)
24 192
28 224
32 256
数据TCP头IP头Ethernet头
2016-12-05 20:54:31.964339 IP 192.168.99.101.8080 > 192.168.99.1.52739: tcp 266
0x0000: 4500 0132 7c13 4000 4006 75fb c0a8 6365 E..2|.@.@.u...ce
0x0010: c0a8 6301 1f90 ce03 3cbe a47d e4cf 5195 ..c.....<..}..Q.
0x0020: 5018 00fe 48dc 0000 4854 5450 2f31 2e31 P...H...HTTP/1.1
0x0030: 2032 3030 204f 4b0d 0a44 6174 653a 2054 .200.OK..Date:.T

准备--TCPDUMP常用命令
参数描述参数描述
-A 显示ASCII字符 -t 不显示时间戳
-c 指定抓包数量，到达指定数量后退出 -tttt 显示格式化时间
-D 列出机器网卡 -v -vv -vvv 在控制台显示信息
-G 指定抓包时长，-G30，可以跟-W一起使用 -w 保存到文件
-i 指定抓取的网卡 -X 打印HEX原始报文信息
-n 不要解析IP地址 -s 截取报文长度，默认1500
-nn 不要解析地址和端口更多参数man tcpdump
tcpdump -A -s 0 port 80 抓取80端口的所有数据包，并以ASCII码显示
tcpdump -nvvX -s 768 src x.x.x.x and dst port 80 指定固定来源的请求
tcpdump

应用性能分析
抓取数据包
tcpdump
分析提取数据
awk
输出
report
吞吐量
•统计每秒钟处理的请求数量
•单位rps
平均响应时间
•从请求开始到数据返回的消耗时间，
为一次请求的响应时间
•统计所有请求的响应时间，计算平均
值
•单位ms
错误率
•http返回错误状态码的次数占所有请
求的比率
•单位%
一个简单的WEB应用
环境
指标
思路

应用性能分析--抓包
tcpdump -G30 -W1 -i any port 8080 -w /tmp/8080.pcap
抓取数据包：抓取30秒数据，写入临时文件（假设WEB服务端口是8080）

>,192.168.99.1.60299:-192.168.99.101.8080:,12-01 11:38:54.945952,/hello.echo.jsp,
<,192.168.99.1.60299:-192.168.99.101.8080:,12-01 11:38:54.946377,,200
应用性能分析--解析
2016-12-05 20:54:31.901814 IP 192.168.99.1.52737 > 192.168.99.101.8080: tcp 201
E...".@.......c...ce.......[....P...L...GET /hello.echo.jsp HTTP/1.1
Connection: keep-alive
Content-Length: 0
Content-Type: text/plain; charset=ISO-8859-1
2016-12-05 20:54:31.902287 IP 192.168.99.101.8080 > 192.168.99.1.52737: tcp 266
E..25.@.@..k..ce..c............$P...H...HTTP/1.1 200 OK
Date: Tue, 06 Dec 2016 01:54:31 GMT
Content-Type: text/html; charset=ISO-8859-1
解析数据包：用tcpdump从读取保存的pcap文件加载
tcpdump -tttt -s96 -nnn -A -i any "( tcp[tcpflags]& 0x8 !=0 ) " -r 8080.pcap
分析提取数据：用文本利器awk来提取上面标记的信息
tcpdump … 8080.pcap | awk -f trace.awk

应用性能分析--解析（续）
>,192.168.99.1.60288:-192.168.99.101.8080:,12-01 11:38:50.737326,/hello.echo.jsp,
<,192.168.99.1.60288:-192.168.99.101.8080:,12-01 11:38:50.738115,,200
>,192.168.99.1.60289:-192.168.99.101.8080:,12-01 11:38:50.769716,/hello.echo.jsp,
<,192.168.99.1.60289:-192.168.99.101.8080:,12-01 11:38:50.770231,,200
>,192.168.99.1.60287:-192.168.99.101.8080:,12-01 11:38:50.824804,/hello.echo.jsp,
<,192.168.99.1.60287:-192.168.99.101.8080:,12-01 11:38:50.825312,,200
>,192.168.99.1.60290:-192.168.99.101.8080:,12-01 11:38:50.931915,/hello.echo.jsp,
<,192.168.99.1.60290:-192.168.99.101.8080:,12-01 11:38:50.932579,,200
>,192.168.99.1.60291:-192.168.99.101.8080:,12-01 11:38:51.018451,/hello.echo.jsp,
>,192.168.99.1.60289:-192.168.99.101.8080:,12-01 11:38:51.018473,/hello.echo.jsp,
<,192.168.99.1.60289:-192.168.99.101.8080:,12-01 11:38:51.019094,,200
<,192.168.99.1.60291:-192.168.99.101.8080:,12-01 11:38:51.019133,,200
>,192.168.99.1.60288:-192.168.99.101.8080:,12-01 11:38:51.135956,/hello.echo.jsp,
<,192.168.99.1.60288:-192.168.99.101.8080:,12-01 11:38:51.136451,,200
>,192.168.99.1.60287:-192.168.99.101.8080:,12-01 11:38:51.168214,/hello.echo.jsp,
<,192.168.99.1.60287:-192.168.99.101.8080:,12-01 11:38:51.168865,,200
由于并发请求，我们需要
用sort根据连接标记排序
按照TCP连接排序来区分关联请求响应
tcpdump …-r 8080.pcap | awk -f trace.awk | sort

应用性能分析--解析（续）
>,192.168.99.1.60293:-192.168.99.101.8080:,12-01 11:38:52.916889,/hello.echo.jsp,
<,192.168.99.1.60293:-192.168.99.101.8080:,12-01 11:38:52.917607,,200
192.168.99.1.60293:-192.168.99.101.8080:,12-01 11:38:54.916889,/hello.echo.jsp,200,612us
排序后的数据会根据TCP连接和时间先后排序
继续使用文本神器awk,两行相减即可
tcpdump … -r 8080.pcap | awk -f trace.awk | sort | awk -f combine.awk > http.requests
然后把分析的结果保存的文件，后续统计使用

应用性能分析--统计
192.168.99.1.60295:-192.168.99.101.8080:,12-01 11:38:54.039088,/hello.echo.jsp,200,618,us
192.168.99.1.60295:-192.168.99.101.8080:,12-01 11:38:54.163866,/hello.echo.jsp,200,440,us
192.168.99.1.60295:-192.168.99.101.8080:,12-01 11:38:54.374836,/hello.echo.jsp,200,549,us
192.168.99.1.60295:-192.168.99.101.8080:,12-01 11:38:54.661418,/hello.echo.jsp,200,5004,us
192.168.99.1.60296:-192.168.99.101.8080:,12-01 11:38:52.869262,/hello.echo.jsp,200,622,us
192.168.99.1.60296:-192.168.99.101.8080:,12-01 11:38:53.040559,/hello.echo.jsp,200,512,us
192.168.99.1.60296:-192.168.99.101.8080:,12-01 11:38:53.480057,/hello.echo.jsp,200,478,us
192.168.99.1.60296:-192.168.99.101.8080:,12-01 11:38:53.991262,/hello.echo.jsp,200,555,us
st=2016-12-01 11:38:25.834630,et=2016-12-01 11:38:54.945952,total=280265,count=485,rps=16.6602,resp
avg=577.866,resp max=5004,resp min=248,error=1,success
经过前面的分析，得到每一个WEB请求的响应时间和状态
指标
吞吐量每秒钟的请求数
响应时间平均值，最大值，最小值
成功率错误次数/请求数
cat http.requests | awk -f statistic.awk

应用性能分析--自动化监测
tcpdump -qnn -G30 -W1 -i any port 8080 -w /tmp/temp.pcap > /dev/null && tcpdump -q
-tttt -s96 -nnn -A -i any "( tcp[tcpflags]& 0x8 !=0 ) " -r /tmp/temp.pcap | awk -f
trace.awk | sort| awk -f combine.awk | awk -f statistic.awk && rm -f /tmp/temp.pcap
更进一步，可以把结果发送邮件，或者trap，或者curl推送到外部系统
把所有的一切连接起来，添加crontab定时任务

01
02
03
基础知识准备
应用性能分析过程详解
其它和附录
大纲

更多一点
还有其它一些什么方法可以用来做性能分析
各有什么优缺点
这个方法看起来有点麻烦
就是一种基于旁路监听的应用性能分析的基本原理，通过镜像镜像数据，分析更多节点，解析更多协议,
更多指标…；比如我们的优云APM
日志文件，代码跟踪，模拟用户，…

附录 trace.awk
#把tcpdump -A出来的数据格式化，根据tcp连接提取请求路径和返回码
#注意：
#由于2016-12-05 20:54:31.901814 IP 192.168.99.1.52737 > 192.168.99.101.8080: tcp 201 发送和接收的顺序相反
#在输出的时候交换位置
BEGIN{
RS="([[:digit:]]{4}-)"
FS="no-field-seperator"
}
{
split($0, f, " ")
if( match($0 , /(GET|POST) ([^ ]*)/, m) ) {
print ">,"f[4]":-"f[6]",2016-"f[1]" "f[2]","m[2]","
}
if( match($0, /(HTTP)/1.1 ([[:digit:]]+)/, m) ){
print "<,"f[6]"-"f[4]":,2016-"f[1]" "f[2]",,"m[2]
}
}
END{
}

附录 combine.awk
# 用于把两行独立的发送和响应合并，并且根据时间差计算响应时间
# 注意输入数据应该根据TCP连接，和时间先后排序
#
BEGIN{
RS=">";
FS=",|n“
}
{
if (NF > 5) {
split($8, sa,".");
split($3, sb,".");
gsub(/[:-]/, " ", sa[1]);
gsub(/[:-]/, " ", sb[1]);
rtime = (1000000*mktime(sa[1]) + sa[2]) - (1000000*mktime(sb[1]) + sb[2]);
print $2 "," $3 "," $4 "," $10 "," rtime ",us";
}
}
END{
}

附录 statistic.awk
# 根据输入的每一次http请求，生成统计信息
# 输出开始时间，结束时间，最大最小响应时间，平均响应时间，总响应时间，请求量，吞吐量，和成功率
BEGIN {
FS=","
}
{
total += $5
count ++;
if( !max || $5 > max ) max = $5
if( !min || $5 < min ) min = $5
if( !max_date || $2 > max_date ) max_date = $2
if( !min_date || $2 < min_date ) min_date = $2
if( $4 > 400 ) error++
}
END {
split(max_date, maxs, ".")
split(min_date, mins, ".")
gsub(/[-:]/, " ", maxs[1])
gsub(/[-:]/, " ", mins[1])
delta = (1000000*mktime("2016 "maxs[1])+maxs[2]) -(1000000*mktime(mins[1])+mins[2])
print "st="min_date",et="max_date",total=" total ",count=" count ",rps="(1000000*count/delta) ",resp avg=" (total/count) ",resp
max=" max ",resp min=" min",error="error",success rate="((total-error)/total)
}

如何应用Tcpdump分析应用性能

Recommended

Recommended

More Related Content

Similar to 如何应用Tcpdump分析应用性能

Similar to 如何应用Tcpdump分析应用性能 (20)

如何应用Tcpdump分析应用性能

Editor's Notes