
安装前提
需要python开发环境,点击此处查看如何配置
使用虚拟环境(推荐)
创建虚拟环境
|
|
venv_crawl4ai
:虚拟环境名称
创建成功后会在当前目录下生成一个以venv_crawl4ai
为名称的文件夹,它就是创建成功的虚拟环境
激活虚拟环境
在虚拟环境所在目录下,运行以下命令即可激活虚拟环境:
|
|
- 命令提示符变为
(venv_crawl4ai) rotos@RotosDev:~$
:即代表已经进入该虚拟环境 - 退出虚拟环境:输入
deactivate
即可退出 - 删除虚拟环境:直接删除虚拟环境所对应的文件夹
venv_crawl4ai
即可
安装Crawl4AI核心包
|
|
注意:若遇到网络问题,可尝试更换网络环境或使用镜像源
运行安装后设置
安装完成后,运行以下命令以完成环境配置:
|
|
此命令会安装必要的 Playwright 浏览器(如 Chromium、Firefox 等),并检查操作系统级别的依赖(如libnss3
、libgbm-dev
等)。
验证安装
|
|
此命令会检查浏览器安装状态、依赖项完整性和环境配置。
脚本测试
创建一个简单的 Python 脚本(如 test_crawl.py
),并运行以下代码以验证crawl4ai是否正常使用:
|
|
运行脚本:
|
|
如果一切正常,脚本会输出https://www.example.com
网页的前300字符。
声明与注意事项
截至本文发布日期,上述安装方案在 Ubuntu 24.04.1 LTS 环境中实测验证有效。若后续因以下可能的原因导致操作失效果:
- 系统级依赖缺失
- Playwright浏览器安装失败
建议通过以下途径自行解决:
- 查看Playwright 官方文档或crawl4ai GitHub仓库获取最新指南