今日头条的视频地址解析方法

[导读]今日头条是目前来说发展比较迅速的自媒体之一，它因丰富的产品知识给大家带来了很多信息，因为视频能充分调动人的视听觉等各方面，因此可以让人们更好的了解信息所要表达的内容。那么对于今日头条上的视频是否可以

今日头条是目前来说发展比较迅速的自媒体之一，它因丰富的产品知识给大家带来了很多信息，因为视频能充分调动人的视听觉等各方面，因此可以让人们更好的了解信息所要表达的内容。那么对于今日头条上的视频是否可以解析呢？今日头条的视频地址解析方法有哪些呢？这里点量软件在网上为的大家转载了一份，希望对你有帮助，如果想了解更多，可以给我留言。

以今日头条视频播放页URL http://www.toutiao.com/a6296462662335201793/ 为例，来说说是如何得到视频的真实地址的。

在Chrome浏览器中打开上面的链接，然后审查播放器区域的元素，发现是这样的：

原来是使用了HTML5的video标签，该标签的src属性值就是视频的真实地址。是不是很简单？如果我们想写个脚本来自动解析视频的真实地址，会发现情况不一样。

说明：以下代码片段均使用Python语言。

import requests
from pyquery import PyQuery as pq

r = requests.get('http://www.toutiao.com/a6296462662335201793/')
d = pq(r.content)
d('video')    # video元素不存在
d('#video')    # id是video的元素是存在的

当我们把播放页下载下来，并且尝试提取video元素的时候，发现下载下来的播放页中根本就没有video元素。这说明video元素可能是js脚本动态生成的，该想想其它办法了。

通过观察加载播放页页面时的网络请求，我们发现如下相关的请求：

http://v7.pstatp.com/b97adb57aaa351e485ed69c5e4852211/5791c279/video/c/c62f4d4320ea43469b490e54240653ab/
http://i.snssdk.com/video/urls/v/1/toutiao/mp4/9583cca5fceb4c6b9ca749c214fd1f90?r=18723666135963302&s=3807690062&callback=tt_playerzfndr

其中，第1个请求就是视频真实地址，第2个请求返回的是一个JSON字符串，内容如下：

{
  "code": 0,
  "message": "success",
  "total": 3,
  "data": {
    "status": 10,
    "video_duration": 0,
    "video_id": "9583cca5fceb4c6b9ca749c214fd1f90",
    "user_id": "toutiao",
    "video_list": {
      "video_3": {
        "definition": "720p",
        "vtype": "mp4",
        "main_url": "aHR0cDovL3Y3LnBzdGF0cC5jb20vZmJiZmE2Yjc4ZjM4MThhM2M0OTVhMmRkYjAyOWY5NTAvNTc5nMWMzODAvdmlkZW8vYy8zNDMwNzcxZjMyNmY0ZDUxOTRiNTYyMzdhNmEyMzFmYy8=n",
        "vwidth": 720,
        "backup_url_1": "aHR0cDovL3Y2LnBzdGF0cC5jb20vdmlkZW8vYy8zNDMwNzcxZjMyNmY0ZDUxOTRiNTYyMzdhNmEynMzFmYy8/U2lnbmF0dXJlPTMwd25YNHVBYzJ1JTJGdSUyRlNvNjhDM010U1VRVW8lM0QmRXhwaXJlncz0xNDY5MTc0MTYwJktTU0FjY2Vzc0tleUlkPXFoMGg5VGRjRU1ybTFWbFIyYWQvn",
        "bitrate": 0,
        "vheight": 576,
        "size": 0
      },
      "video_2": {
        "definition": "480p",
        "vtype": "mp4",
        "main_url": "aHR0cDovL3Y0LnBzdGF0cC5jb20vM2ZiYTI0YzVhYzE1NGVlNmIxMGQ4ZTAyZThhNGQxZDMvNTc5nMWMzODAvdmlkZW8vYy9jNjJmNGQ0MzIwZWE0MzQ2OWI0OTBlNTQyNDA2NTNhYi8=n",
        "vwidth": 600,
        "backup_url_1": "aHR0cDovL3Y0LnBzdGF0cC5jb20vM2ZiYTI0YzVhYzE1NGVlNmIxMGQ4ZTAyZThhNGQxZDMvNTc5nMWMzODAvdmlkZW8vYy9jNjJmNGQ0MzIwZWE0MzQ2OWI0OTBlNTQyNDA2NTNhYi8=n",
        "bitrate": 0,
        "vheight": 480,
        "size": 0
      },
      "video_1": {
        "definition": "360p",
        "vtype": "mp4",
        "main_url": "aHR0cDovL3Y2LnBzdGF0cC5jb20vdmlkZW8vYy9iODgwZmI1YzM1NjE0NzJlOThlNGU0Y2U5N2MynYzg5ZS8/U2lnbmF0dXJlPXBlTWhoNFdLcyUyRkNmRW9pYm4wTVNKUU5tR1lnJTNEJkV4cGlyZXM9nMTQ2OTE3NDE2MCZLU1NBY2Nlc3NLZXlJZD1xaDBoOVRkY0VNcm0xVmxSMmFkLw==n",
        "vwidth": 450,
        "backup_url_1": "aHR0cDovL3Y3LnBzdGF0cC5jb20vNjFhYTJlN2RlN2YxZTgzNGJiNjg3ZDZmMDZjZGFmNzMvNTc5nMWMzODAvdmlkZW8vYy9iODgwZmI1YzM1NjE0NzJlOThlNGU0Y2U5N2MyYzg5ZS8=n",
        "bitrate": 0,
        "vheight": 360,
        "size": 0
      }
    }
  }
}

看看JSON内容，可以看到共有3种清晰度视频，分别是超清、高清和标清。definition表示清晰度，main_url应该就是视频真实地址了。main_url的值看起来就是base64编码后的结果，用base64解码main_url，得到的就是视频真实地址。

import base64
main_url = "aHR0cDovL3Y3LnBzdGF0cC5jb20vZmJiZmE2Yjc4ZjM4MThhM2M0OTVhMmRkYjAyOWY5NTAvNTc5nMWMzODAvdmlkZW8vYy8zNDMwNzcxZjMyNmY0ZDUxOTRiNTYyMzdhNmEyMzFmYy8=n"
base64.standard_b64decode(main_url)    
# output: http://v7.pstatp.com/fbbfa6b78f3818a3c495a2ddb029f950/5791c380/video/c/3430771f326f4d5194b56237a6a231fc/

那么接下来的问题就是探究上面的第2个请求http://i.snssdk.com/video/urls/v/1/toutiao/mp4/9583cca5fceb4c6b9ca749c214fd1f90?r=18723666135963302&s=3807690062&callback=tt_playerzfndr 是如何构造的。

在用Chrome的开发者工具监视网络请求的时候可以看到该请求是js脚本发出的，该js脚本是 http://s3.pstatp.com/tt_player/player/tt2-player.js?r=customer1
把该js下载下来，prettify一下，使用你最爱的编辑器看看该js到底做了些什么。

通过研究该js脚本，发现请求http://i.snssdk.com/video/urls/v/1/toutiao/mp4/9583cca5fceb4c6b9ca749c214fd1f90?r=18723666135963302&s=3807690062&callback=tt_playerzfndr 中的一些参数的含义如下：

9583cca5fceb4c6b9ca749c214fd1f90：这是视频的唯一ID18723666135963302：这是一个随机数3807690062：这是CRC32校验值无符号右移0位

视频的唯一ID可以在播放页HTML源码中找到，即id为video的元素的tt-videoid属性值。

import requests
from pyquery import PyQuery as pq

r = requests.get('http://www.toutiao.com/a6296462662335201793/')
d = pq(r.content)
vid = d('#video').attr('tt-videoid')

参数r的构造如下：

import random

r = str(random.random())[2:]

参数s的构造如下：

import urlparse

def right_shift(val, n):
    return val >> n if val >= 0 else (val + 0x100000000) >> n

url = 'http://i.snssdk.com/video/urls/v/1/toutiao/mp4/%s' % vid
n = urlparse.urlparse(url).path + '?r=' + r
c = binascii.crc32(n)
s = right_shift(c, 0)

参数callback就不管了吧。到此，获取JSON内容就简单了：

r = requests.get(url + '?r=%s&s=%s' % (r, s))
print r.json()

视频真实地址解析

今日头条的视频地址解析方法

阿维塔、赛力斯已入股！华为引望可能成“中国博世”

Trianz与AWS达成战略合作协议，彻底改变云采用和管理方式

人工智能驱动工具SODA V将颠覆汽车市场，使汽车开发时间和成本降低90%

从容应对未知风险----解密亚马逊云科技的韧性之道

中国游戏市场开始复苏！腾讯、网易等巨头缩减在日本投资

独立自主！华为董事：致力打造不依赖西方的技术

华为张平安：数字世界话语权最终由生态繁荣决定！

中国通信服务公布2024年中期业绩

NVI技术创新联盟成立！自主生态将带动产业链高速发展

软通动力与长三角投资达成战略合作共谋数字生态新发展

海南区6家凯悦系酒店与岚图达成战略合作，共同推动新能源出行体验

安岚携手妮可•巴菲特开启疗愈之旅在秋日红叶的浪漫中疗愈身心

不惧美国封锁！华为：我们给大家提供系统、存储等

尼尔森IQ深耕中国四十载，共绘未来新篇章

第二十二届跨盈年度B2B营销高管峰会2025聚焦"营销竞取，打破市场内卷实现认知进化"

恒久动力驰骋天地美孚1号携手周冠宇邀您纵擎驰骋，劲享驾趣体验

美通社母公司Cision发布CisionOne平台，进军亚太地区媒体监测市场

移远通信推出大模型解决方案，重塑千行百业智能边界

高途公布2024年第二季度未经审计业绩

华为发布AI百校计划：培养AI人才每年获最高100万支持