当前位置:首页 > 芯闻号 > 充电吧
[导读]python用于url解码和中文解析的小脚本(续) by 不求东西之前写过一篇关于处理url里中文字符解码文章,后来看到原文中TL的回复,发现原来那一篇文章存在着几个问题,觉得这些问题可能别的同学

python用于url解码和中文解析的小脚本(续) by 不求东西

之前写过一篇关于处理url里中文字符解码文章,后来看到原文中TL的回复,发现原来那一篇文章存在着几个问题,觉得这些问题可能别的同学也会遇到,就续写一篇吧。

非默认编码的转换
1
2
3
4
5
import

urllib

a="http://zh.wikipedia.org/wiki/%BD%F0%B6"
b="http://zh.wikipedia.org/wiki/%E9%97%A8"
de=urllib.unquote
print

de(a),de(b)

之前的文章里的这段代码,我没有考虑到gbk和utf编码的问题,以为不带有%5Cu这种unicode标志字符的汉字解码只要unquote就万事大吉了呢,但对于与“默认编码环境”不同的编码来说,还需要再多一步处理,所以上述的代码是无法对a正确解码的

TL给出了一种解决办法,可以处理a这种残疾的编码形式(残疾的原因,下面就会解释)


1
2
de(a).decode("gbk","ignore")
de(b).decode("utf8","ignore")

再print就可以打印出中文字符了~

残疾的编码

可是,问题又来了,为什么还需要“ignore”这个参数呢,我发现如果不加这个参数,这样使用,会报错的。


1
de(a).decode("gbk")

检查了一下a在gfwlist中的出处以后,我发现自己犯了一个挺低级的错误的(汗。)

事实是:a里那个网站本来应该是zh.wikipedia.org*%BD%F0%B6%DC%B9%A4%B3%CC这样的,我误以为汉字编码都是3个“百分号+2个十六进制数”(3个字节)这样的样式,所以只取了前3个字节,也就是“%BD%F0%B6″。

而问题在于,gbk编码和utf编码所需的字节数是不一样的,gbk只需2个字节即可编码一个汉字,而a是用gbk编码的,1个汉字的解码不需要3个字节,多出来的这1个残疾的字节就成为了decode异常的来源,删掉这个多余的字节以后,解码顺利通过:


1
2
3
4
5
6
7
8
import

urllib

a="http://zh.wikipedia.org/wiki/%BD%F0"
#
gbk, 2 bytes per Chinese character

b="http://zh.wikipedia.org/wiki/%E9%97%A8"
#
utf8, 3 bytes per Chinese character

de=urllib.unquote
print

de(a).decode(
"gbk")
print

de(b).decode(
"utf8")定义解码方式的优先级

最后,我将TL的脚本中以优先级的形式处理多种中文编码的函数代码copy了过来,同时将中文编码的字节下限由3字节改为了2个字节以后,发现原来gfwlist中所有不能正常解码的中文,现在都可以显示出来了,哈哈,不错~


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
<code class="py keyword" style="border-width:0px!important; margin:0px!important; p

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭