亚马逊爬虫爬爬乐：商品信息与视频下载

2019 字

10 分钟

亚马逊爬虫爬爬乐：商品信息与视频下载

2026-01-12

Python实战

Python

/

Playwright

/

FFmpeg

/

抓包分析

/

亚马逊

...

前言#

继上一篇搞定 1688 之后，我将目光投向了跨境电商平台——亚马逊（Amazon）。

相比于 1688，亚马逊的反爬机制和页面复杂度提升了一个量级，对比下来闲鱼简直是新手村（哭。特别是它的 Twister 变体系统（即颜色、尺寸的联动逻辑）和混合加载机制，让传统的 DOM 解析几乎失效。

在经历了数次的试错，我构建了一套基于 Playwright + 堆栈式数据提取 + FFmpeg 并发 的稳定方案。本文分享我们在处理 SKU 映射、高清视频下载以及懒加载交互上的核心技术实现。

一、核心难点分析#

在开发初期，我们主要面临三大挑战：

数据碎片化：亚马逊的 SKU 数据（图片、ASIN、属性）并不在一个统一的 JSON 里，而是分散在 jQuery.parseJSON、P.register 以及动态 AJAX 请求中
代码压缩与混淆：页面源码经过高度压缩（Minified），一行代码可能长达几万字符。简单的正则表达式在匹配嵌套 JSON 时极其容易失效或溢出
视频流陷阱：直接抓取的视频链接往往是 m3u8 的 Master Playlist（仅几KB），包含的是分片索引而非视频本身，导致无法直接保存播放

二、架构设计#

为了解决上述问题，我们采用了如下的模块化架构：

交互层 (Interaction)：使用 Playwright 进行”拉锯式”滚动，触发所有懒加载组件
解析层 (Parser)：放弃不可靠的正则全匹配，用字符堆栈提取核心 JSON 数据
下载层 (Downloader)：调用系统级 FFmpeg 进程，实现 m3u8 自动合并与多进程并发

三、技术实现细节#

1. 攻克 Twister：堆栈式 JSON 提取#

亚马逊的商品数据通常被封装在 P.register('twister-js-init-dpx-data', function() { var dataToReturn = { ... } }) 这种闭包里。

这里我不再截图了（因为做的时候忘记截图了），直接搜索 CTRL+F 搜索吧。

amz1

还是回去截了个图，基本上数据都在这个包里，包括颜色和大小（不过本文没有做大小爬取，因为本来要做 SKU 全量爬取的，后面失败了）。

起初我尝试用 re.search(r'var dataToReturn = ({.*?})', html)，但由于 JSON 内部包含大量嵌套的大括号 {}，正则的贪婪匹配经常抓错结束位置，导致 JSON 解析失败。特别是在源码被压缩成一行时，正则几乎不可用。

解决方案：字符堆栈分析法

既然正则搞不定嵌套，我们就模拟编译器的原理。从变量定义处开始，逐个字符读取，遇到 { 入栈（计数+1），遇到 } 出栈（计数-1）。当计数器归零时，我们就完美剥离出了一个完整的 JSON 对象。

1
def extract_json_by_stack(html_content):
2
    """
3
    核心算法：通过数大括号的方式提取核心数据
4
    解决正则匹配不完整导致的 JSON 解析错误
5
    """
6
    # 1. 定位变量起点
7
    start_marker = "var dataToReturn ="
8
    start_idx = html_content.find(start_marker)
9
    if start_idx == -1: return {}
10

11
    # 2. 找到第一个左括号
12
    cursor = html_content.find("{", start_idx)
13
    if cursor == -1: return {}
14

15
    # 3. 堆栈计数
16
    brace_count = 0
17
    json_str = ""
18
    found_end = False
19

20
    # 截取缓冲区，避免全页遍历
21
    buffer = html_content[cursor : cursor + 500000]
22

23
    for char in buffer:
24
        json_str += char
25
        if char == '{':
26
            brace_count += 1
27
        elif char == '}':
28
            brace_count -= 1
29
            # 闭合检测
30
            if brace_count == 0:
31
                found_end = True
32
                break
33

34
    if found_end:
35
        try:
36
            # 数据清洗与加载
37
            return json.loads(json_str)
38
        except json.JSONDecodeError:
39
            pass # 容错处理
40
    return {}

通过这个方法，我们成功拿到了 colorImages（高清图映射）和 sortedDimValuesForAllDims（SKU 映射关系），无论亚马逊前端代码如何压缩，只要结构不变，数据就能取到。

2. 视频下载：FFmpeg 多进程并发#

亚马逊的视频使用的是 HLS 协议（.m3u8）。如果你直接用 requests.get 下载，只会得到一个包含分片地址的文本文件，只有几 KB，根本播放不了。

解决方案：

不要尝试用 Python 去解析 m3u8 然后一个个下 ts 切片再合并，那样效率太低且容易出错。最稳健的方法是直接调用系统安装的 ffmpeg。

为了提升速度，我们引入了 asyncio.Semaphore 来控制并发数，同时开启 5 个 FFmpeg 子进程进行下载。

1
async def download_video_ffmpeg(url, path, semaphore):
2
    # 检查文件是否已存在且有效
3
    if os.path.exists(path) and os.path.getsize(path) > 10240:
4
        return
5

6
    async with semaphore:
7
        print(f"🎬 [FFmpeg启动] 正在下载: {os.path.basename(path)}")
8

9
        # 构造命令：-copy 模式不转码，速度极快
10
        # -bsf:a aac_adtstoasc 用于修复音频流格式
11
        cmd = [
12
            "ffmpeg", "-y", "-v", "error",
13
            "-protocol_whitelist", "file,http,https,tcp,tls,crypto",
14
            "-i", url,
15
            "-c", "copy",
16
            "-bsf:a", "aac_adtstoasc",
17
            path
18
        ]
19

20
        try:
21
            # 异步调用子进程，不阻塞主线程
22
            process = await asyncio.create_subprocess_exec(*cmd)
23
            await process.wait()
24
        except Exception as e:
25
            print(f"❌ 下载失败: {e}")

3. 强制交互：触发“懒加载”#

亚马逊页面有大量的 Lazy Load （懒加载）机制。关联视频（Related Videos）和买家秀通常在页面底部，如果不滚动到可视区域，浏览器根本不会发送请求。

简单的 page.keyboard.press("PageDown") 往往不够，因为滑得太快服务器反应不过来。我们实现了一种**“拉锯式滚动”**策略：

1
# 获取页面总高度
2
page_height = await page.evaluate("document.body.scrollHeight")
3
scroll_step = 200  # 每次滚动200像素
4
total_steps = max(1, int(page_height / scroll_step))  # 至少1步
5
scroll_duration = 5  # 总共5秒
6
delay_per_step = scroll_duration / total_steps  # 每步延迟时间
7

8
# 从上到下慢慢滚动
9
current_scroll = 0
10
while current_scroll < page_height:
11
    await page.evaluate(f"window.scrollTo(0, {current_scroll})")
12
    current_scroll += scroll_step
13
    await asyncio.sleep(delay_per_step)
14

15
# 确保滚动到底部
16
await page.evaluate("window.scrollTo(0, document.body.scrollHeight)")
17
await asyncio.sleep(1)
18

19
# 扫描视频容器（其实这一段代码没啥用，根本定位不到，但是我还是保留了，小伙伴们使用时可以删掉这个）
20
print("   -> 扫描视频板块...")
21
try:
22
    video_loc = page.locator("#vse-related-videos, .vse-related-videos-container, #aplus").first
23
    if await video_loc.count() > 0:
24
        await video_loc.scroll_into_view_if_needed()
25
        await asyncio.sleep(2)
26
except: pass

4. 启动时触发机器人验证#

启动都触发到机器人验证，但是是有时候会有，触发频率玄学。

解决方案：无解，即便我完美复刻浏览器标头，纯净IP，都无法避免这个问题。但是点击一次后，后面几次大概率不会弹出。做一个等待函数等待用户完成验证即可。

四、成果展示#

经过上述优化，爬虫运行稳定。它会自动创建一个以商品标题命名的文件夹，并生成详细的txt。

文件夹结构：

1
Amazon_Downloads/
2
└── Carhartt Mens Loose Fit T-Shirt/
3
    ├── Images/
4
    │   ├── Black_1.jpg
5
    │   ├── Black_2.jpg
6
    │   ├── Navy_1.jpg
7
    │   └── ...
8
    ├── Videos/
9
    │   ├── Main_Video.mp4
10
    │   └── Review_Video_1.mp4
11
    └── info.txt

amz2

amz3

info 内容：包含了每个 SKU 的颜色、ASIN，以及商品链接标题和默认价格。

总结#

开发亚马逊爬虫的过程，实际上是一个与**“前端工程化”**博弈的过程。

页面源码不再是简单的 HTML，而是被 Webpack 等工具打包压缩后的 JS 闭包，这逼迫我们放弃正则，转向堆栈分析
媒体资源不再是直链，而是流媒体协议（HLS），这要求我们引入 FFmpeg 进行流处理
数据不再是静态渲染，而是各种 Hydration 和 Lazy Load，这要求我们编写更拟人的交互脚本

其实本来想做每个 SKU 的 SIZE 和价格都标出来，即颜色 + ASIN + 可供选择的 SIZE + 价格。奈何亚马逊的页面复杂到我无法解析，基本上每点一个颜色，都会回传一大批数据，我无法使用抓包分析，或许直接抓 DOM 可以，但是太麻烦了，我也不想做（被这个恶心到了，或许某天闲着没事会来尝试一下）。本脚本开发时间耗时接近 8 个小时。