URL 编码
URL使用%编码,即 %后边跟该字符对应的 UTF-8 编码后的16进制值, 每2个前面加一个%, 不是codepoint.
如 encodeURI("新华网.中国") = %E6%96%B0%E5%8D%8E%E7%BD%91.%E4%B8%AD%E5%9B%BD
如 %65bay.com = ebay.com
JavaScript 使用 escape(), encodeURI(),encodeURIComponent(). escape() 方法已经被废弃
- 协议或schema 是固定的那么些协议
- 主机名 只能是白名单(字符数字和-)里面的
- path 浏览器一般使用UTF-8 去解码
- query 参数 一般使用html的Content-Type去解码
- anchor 一般使用UTF-8 ? 还是用 Content-Type 去解码?
HTML 内容编码
HTML 文档里可以出现2种编码
- <, >, &, ', ", 空格, 这些HTML 标签使用的的编码, 可以使用 %gt; %lt; %nsbsp; 来编码;
- 另外可以用Unicode的进制编码 %#xH; (16进制), %#DD (10进制)编码
JavaScript: 这个问答有2个非常好的答案 HTML-encoding in JavaScript/jQuery
Java 版本:
import static org.apache.commons.lang3.StringEscapeUtils.escapeHtml4;
String escaped = escapeHtml4(source);
JavaScript 内容编码
- 某些控制字符 \t, \r \n \b \v \f
- 8进制3位数字 \145 : e \060 :10进制0
- 16进制2位数 \x65 \x30
- Unicode 4位数 \u0065 \u7530 \u0061lert(1) 这种能用在字符串之外的位置, 其它则不可
CSS 编码
- CSS 属性中可以使用十进制, 十六进制表示
- CSS 兼容HTML中的进制表示法.