安装前提

使用虚拟环境(推荐)

创建虚拟环境

1
python3 -m venv venv_crawl4ai

venv_crawl4ai：虚拟环境名称创建成功后会在当前目录下生成一个以venv_crawl4ai为名称的文件夹，它就是创建成功的虚拟环境

激活虚拟环境

在虚拟环境所在目录下，运行以下命令即可激活虚拟环境：

1
source venv_crawl4ai/bin/activate

命令提示符变为(venv_crawl4ai) rotos@RotosDev:~$：即代表已经进入该虚拟环境
退出虚拟环境：输入deactivate即可退出
删除虚拟环境：直接删除虚拟环境所对应的文件夹venv_crawl4ai即可

安装Crawl4AI核心包

1
pip install crawl4ai

注意：若遇到网络问题，可尝试更换网络环境或使用镜像源

运行安装后设置

安装完成后，运行以下命令以完成环境配置：

1
crawl4ai-setup

此命令会安装必要的 Playwright 浏览器（如 Chromium、Firefox 等），并检查操作系统级别的依赖（如libnss3、libgbm-dev等）。

验证安装

1
crawl4ai-doctor

此命令会检查浏览器安装状态、依赖项完整性和环境配置。

脚本测试

创建一个简单的 Python 脚本（如 test_crawl.py），并运行以下代码以验证crawl4ai是否正常使用：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
import asyncio
from crawl4ai import AsyncWebCrawler

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(url="https://www.example.com")
        print(result.markdown[:300])  # 打印提取的前 300 个字符

if __name__ == "__main__":
    asyncio.run(main())