主页
文章
分类
标签
关于
Ubuntu系统安装crawl4ai
发布于: 2025-3-18   更新于: 2025-3-18   收录于: 工具
文章字数: 723   阅读时间: 2 分钟  

安装前提

需要python开发环境点击此处查看如何配置

使用虚拟环境(推荐)

创建虚拟环境

1
python3 -m venv venv_crawl4ai

venv_crawl4ai:虚拟环境名称 创建成功后会在当前目录下生成一个以venv_crawl4ai为名称的文件夹,它就是创建成功的虚拟环境

激活虚拟环境

在虚拟环境所在目录下,运行以下命令即可激活虚拟环境:

1
source venv_crawl4ai/bin/activate
  • 命令提示符变为(venv_crawl4ai) rotos@RotosDev:~$:即代表已经进入该虚拟环境
  • 退出虚拟环境:输入deactivate即可退出
  • 删除虚拟环境:直接删除虚拟环境所对应的文件夹venv_crawl4ai即可

安装Crawl4AI核心包

1
pip install crawl4ai

注意:若遇到网络问题,可尝试更换网络环境或使用镜像源

运行安装后设置

安装完成后,运行以下命令以完成环境配置:

1
crawl4ai-setup

此命令会安装必要的 Playwright 浏览器(如 Chromium、Firefox 等),并检查操作系统级别的依赖(如libnss3libgbm-dev等)。

验证安装

1
crawl4ai-doctor

此命令会检查浏览器安装状态、依赖项完整性和环境配置。

脚本测试

创建一个简单的 Python 脚本(如 test_crawl.py),并运行以下代码以验证crawl4ai是否正常使用:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
import asyncio
from crawl4ai import AsyncWebCrawler

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(url="https://www.example.com")
        print(result.markdown[:300])  # 打印提取的前 300 个字符

if __name__ == "__main__":
    asyncio.run(main())

运行脚本:

1
python test_crawl.py

如果一切正常,脚本会输出https://www.example.com网页的前300字符。


声明与注意事项

截至本文发布日期,上述安装方案在 Ubuntu 24.04.1 LTS 环境中实测验证有效。若后续因以下可能的原因导致操作失效果:

  1. 系统级依赖缺失
  2. Playwright浏览器安装失败

建议通过以下途径自行解决: