先に原因を書いておくと、
チェックサムが 0x0000 のUDPパケットが戻ってくると、自分の環境では「どこか」で再計算された誤ったチェックサムが付与され、チェックサムが合わないのでユーザーランドに届く前に破棄されていました。
以下、詳しく。
ことの始まりは、自宅でtwitchでSplatoon(先日ようやくSになりました!)の動画配信を見ようとしたのですがアクセスできないのに気づいたことでした。
ブラウザに表示されるエラーメッセージからして名前が引けないようなので、digで試してみたら引けませんでした。(10.6.25.2は宅内のキャッシュサーバー(djbdns))
$ dig www.twitch.tv @10.6.25.2 (しばらくだんまり) ; <<>> DiG 9.9.5-3ubuntu0.7-Ubuntu <<>> www.twitch.tv @10.6.25.2 ;; global options: +cmd ;; Got answer: ;; ->>HEADER<<- opcode: QUERY, status: SERVFAIL, id: 37843 ;; flags: qr rd ra; QUERY: 1, ANSWER: 0, AUTHORITY: 0, ADDITIONAL: 0 ;; QUESTION SECTION: ;www.twitch.tv. IN A ;; Query time: 54 msec ;; SERVER: 10.6.25.2#53(10.6.25.2) ;; WHEN: Wed Jan 27 12:13:35 JST 2016 ;; MSG SIZE rcvd: 31
引ける環境でtwitch.tvのネームサーバーを調べて問い合わせてみても引けない。
### 引ける環境 $ dig -t ns twitch.tv ; <<>> DiG 9.9.5-3ubuntu0.7-Ubuntu <<>> -t ns twitch.tv ;; global options: +cmd ;; Got answer: ;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 5068 ;; flags: qr rd ra; QUERY: 1, ANSWER: 6, AUTHORITY: 0, ADDITIONAL: 12 ;; OPT PSEUDOSECTION: ; EDNS: version: 0, flags:; udp: 4000 ;; QUESTION SECTION: ;twitch.tv. IN NS ;; ANSWER SECTION: twitch.tv. 10781 IN NS ns1.p18.dynect.net. twitch.tv. 10781 IN NS a3.verisigndns.com. twitch.tv. 10781 IN NS a2.verisigndns.com. twitch.tv. 10781 IN NS ns3.p18.dynect.net. twitch.tv. 10781 IN NS ns2.p18.dynect.net. twitch.tv. 10781 IN NS a1.verisigndns.com. ;; ADDITIONAL SECTION: ns1.p18.dynect.net. 9110 IN A 208.78.70.18 ns1.p18.dynect.net. 281 IN AAAA 2001:500:90:1::18 a3.verisigndns.com. 3571 IN A 69.36.145.33 a3.verisigndns.com. 1940 IN AAAA 2001:502:cbe4::33 a2.verisigndns.com. 3573 IN A 209.112.114.33 a2.verisigndns.com. 3581 IN AAAA 2620:74:19::33 ns3.p18.dynect.net. 10186 IN A 208.78.71.18 ns3.p18.dynect.net. 281 IN AAAA 2001:500:94:1::18 ns2.p18.dynect.net. 17914 IN A 204.13.250.18 a1.verisigndns.com. 2571 IN A 209.112.113.33 a1.verisigndns.com. 3499 IN AAAA 2001:500:7967::2:33 ;; Query time: 1 msec ;; SERVER: 172.24.64.100#53(172.24.64.100) ;; WHEN: Wed Jan 27 12:31:30 JST 2016 ;; MSG SIZE rcvd: 408
$ dig www.twitch.tv @209.112.113.33 (しばらくだんまり) ; <<>> DiG 9.9.5-3ubuntu0.7-Ubuntu <<>> www.twitch.tv @209.112.113.33 ;; global options: +cmd ;; connection timed out; no servers could be reached
ぬーんと思っていたらアドバイスもらったので、
@hirose31 strace かけてユーザランドに渡ってるか見ればユーザランド以外は信じられそう
— Yusuke MURAMATSU (@muranet) January 18, 2016
tcpdumpしながらstraceでdigを実行してみる。
# tcpdump -nlSxX -i any host 209.112.113.33 tcpdump: verbose output suppressed, use -v or -vv for full protocol decode listening on any, link-type LINUX_SLL (Linux cooked), capture size 65535 bytes 12:51:30.078313 IP 10.6.25.39.39302 > 209.112.113.33.53: 58570+ [1au] A? www.twi tch.tv. (42) 0x0000: 4500 0046 77c5 0000 4011 9d23 0a06 1927 E..Fw...@..#...' 0x0010: d170 7121 9986 0035 0032 be51 e4ca 0120 .pq!...5.2.Q.... 0x0020: 0001 0000 0000 0001 0377 7777 0674 7769 .........www.twi 0x0030: 7463 6802 7476 0000 0100 0100 0029 1000 tch.tv.......).. 0x0040: 0000 0000 0000 ...... 12:51:30.090812 IP 209.112.113.33.53 > 10.6.25.39.39302: 58570*- 1/0/1 CNAME ssl .cdn.twitch.tv.c.footprint.net. (89) 0x0000: 4500 0075 01ca 0000 3711 1bf0 d170 7121 E..u....7....pq! 0x0010: 0a06 1927 0035 9986 0061 f393 e4ca 8500 ...'.5...a...... 0x0020: 0001 0001 0000 0001 0377 7777 0674 7769 .........www.twi 0x0030: 7463 6802 7476 0000 0100 01c0 0c00 0500 tch.tv.......... 0x0040: 0100 0000 0f00 2303 7373 6c03 6364 6e06 ......#.ssl.cdn. 0x0050: 7477 6974 6368 0274 7601 6309 666f 6f74 twitch.tv.c.foot 0x0060: 7072 696e 7403 6e65 7400 0000 2910 0000 print.net...)... 0x0070: 0000 0000 00 ..... ...
$ strace -f -s 100 dig www.twitch.tv @209.112.113.33 [pid 1162] sendmsg(20, {msg_name(16)={sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("209.112.113.33")}, msg_iov(1)=[{"Oh\1 \0\1\0\0\0\0\0\1\3www\6twitch\2tv\0\0\1\0\1\0\0)\20\0\0\0\0\0\0\0", 42}], msg_controllen=0, msg_flags=0}, 0 <unfinished ...> ... [pid 1162] recvmsg(20, 0x7fb7f1ca5c90, 0) = -1 EAGAIN (Resource temporarily unavailable) ... [pid 1162] sendmsg(20, {msg_name(16)={sa_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("209.112.113.33")}, msg_iov(1)=[{"Oh\1 \0\1\0\0\0\0\0\1\3www\6twitch\2tv\0\0\1\0\1\0\0)\20\0\0\0\0\0\0\0", 42}], msg_controllen=0, msg_flags=0}, 0) = 42 ... [pid 1162] recvmsg(20, 0x7fb7f1ca5c90, 0) = -1 EAGAIN (Resource temporarily unavailable) ...
なんと、ユーザーランド(digコマンド)には応答が届いてないけど、kernelにはUDPパケットが届いてるご様子。
うーんなんでユーザーランドに届かないんだろう。。。と思っていたらまたアドバイスが。
@hirose31 レスポンスの UDP checksum がこいつだけ 0x0000 だ
— Yusuke MURAMATSU (@muranet) January 18, 2016
@muranet @hirose31 私も tv のNSのreplyにUDP checksum 無いことを確認しました。Verisgnに「チェックサムついてないけどどうした? 引けなくなったって言ってる人もいるけど」の旨問い合わせてみました。返答が来るかどうか。
— dais (@hdais) January 18, 2016
確かに、引ける環境ではチェックサムが 0x0000 になっているけど、引けない環境では 0xf393 になっている。
### 引ける環境 04:09:08.940710 IP 209.112.113.33.53 > 10.0.0.211.35082: 12580*- 1/0/1 CNAME ssl.cdn.twitch.tv.c.footprint.net. (89) 0x0000: 4500 0075 bc5c 0000 3a11 76b7 d170 7121 E..u.\..:.v..pq! 0x0010: 0a00 00d3 0035 890a 0061 0000 3124 8500 .....5...a..1$.. 0x0020: 0001 0001 0000 0001 0377 7777 0674 7769 .........www.twi 0x0030: 7463 6802 7476 0000 0100 01c0 0c00 0500 tch.tv.......... 0x0040: 0100 0000 0f00 2303 7373 6c03 6364 6e06 ......#.ssl.cdn. 0x0050: 7477 6974 6368 0274 7601 6309 666f 6f74 twitch.tv.c.foot 0x0060: 7072 696e 7403 6e65 7400 0000 2910 0000 print.net...)... 0x0070: 0000 0000 00 ..... ### 引けない環境 12:51:30.090812 IP 209.112.113.33.53 > 10.6.25.39.39302: 58570*- 1/0/1 CNAME ssl .cdn.twitch.tv.c.footprint.net. (89) 0x0000: 4500 0075 01ca 0000 3711 1bf0 d170 7121 E..u....7....pq! 0x0010: 0a06 1927 0035 9986 0061 f393 e4ca 8500 ...'.5...a...... 0x0020: 0001 0001 0000 0001 0377 7777 0674 7769 .........www.twi 0x0030: 7463 6802 7476 0000 0100 01c0 0c00 0500 tch.tv.......... 0x0040: 0100 0000 0f00 2303 7373 6c03 6364 6e06 ......#.ssl.cdn. 0x0050: 7477 6974 6368 0274 7601 6309 666f 6f74 twitch.tv.c.foot 0x0060: 7072 696e 7403 6e65 7400 0000 2910 0000 print.net...)... 0x0070: 0000 0000 00 .....
引けない環境のを Wireshark でみてみると、incorrectと表示されています。
0x0000 のチェックサムは、(それをパブリックなネットワークで使うかはさておき)仕様的には妥当な値ではあります。
An all zero transmitted checksum value means that the transmitter generated no checksum (for debugging or for higher level protocols that don't care).
https://tools.ietf.org/html/rfc768
余談ですが、チェックサムについてこれがおもしろかったです。
というわけで、恐らく、自分の環境の「どこか」でUDPのチェックサムの再計算をしていて、その計算ロジックが間違っているんじゃないかと思っています。
「どこか」はNATしている民生用のBUFFALOのブロードバンドルーターが怪しいんじゃないかと思っていて問い合わせ中です。続報があればここに書き足します。
補足
0x0000なチェックサムのUDPパケットを返すのは a1.verisigndns.com [209.112.113.33] だけではなく、
- twitch.tvドメインのネームサーバーの a2.verisigndns.com, a3.verisigndns.com
- nic.tvドメインのネームサーバー全て(a4.nstld.com 等)
- tvドメインのネームサーバー全て(a5.nstld.com 等)
も0x0000なチェックサムを返していました。(2016-01-27現在)
twitch.tvドメインのネームサーバーは ns1.p18.dynect.net 等はチェックサムつきのパケットを返すので、当座は
echo 208.78.70.18 > dnscache/root/servers/twitch.tv
して凌ぐことにしました。。
続報
Verisign
@muranet @hirose31 Verisignから、「認識しており、数週間のうちに必要なアクションをする」という返事は来てました。
— dais (@hdais) January 27, 2016
ふろく
- https://github.com/hirose31/udp-checksum-pcap
- tcpdumpで採取したパケットキャプチャ