2025年9月6日,小吾使用Claude Code搭配Claude Sonnet 4大模型生成HTML数据看板中的数据全对。
1. 解忧场景-需求描述
老板丢给你一个有80条数据的“2025年AI智能体表现数据集”的Excel文件(first-80-rows-agentic_ai_performance_dataset_20250622.xlsx),让你两个小时后给他一份综合数据看板,要求包含下面3个老板关心的问题的数据可视化图表:
(1)支持多模态处理(multimodal_capability)的智能体类型(agent_type)在该智能体类型中的占比从大到小排名前三的智能体类型是哪三个?; (2)支持多模态处理(multimodal_capability)的大模型架构(model_architecture)在该大模型架构中的占比从大到小排名前三的大模型架构是哪三个?; (3)各种智能体任务处理类别(task_category)所对应的智能体所表现出的公正性(bias detection)的中位数从高到低排名前三的是哪三种智能体任务处理类别?
你打算用CodeBuddy IDE国际版搭配Claude Sonnet 4大模型来生成HTML数据看板。
2. 期望的正确数据✅ vs ClaudeCode+Sonnet4实际得到的数据✅
(1)智能体类型多模态能力占比排名前三
期望的正确数据✅ | ClaudeCode+Sonnet4实际得到的数据✅ |
---|---|
Research Assistant: 60.0% (3/5) ✅ | Research Assistant: 60.0% (3/5) ✅ |
Document Processor: 33.3% (2/6) ✅ | Document Processor: 33.3% (2/6) ✅ |
Sales Assistant: 28.6% (2/7) ✅ | Sales Assistant: 28.6% (2/7) ✅ |
(2)大模型架构多模态能力占比排名前三
期望的正确数据✅ | ClaudeCode+Sonnet4实际得到的数据✅ |
---|---|
GPT-4o: 37.5% (3/8) ✅ | GPT-4o: 37.5% (3/8) ✅ |
CodeT5+: 33.3% (3/9) ✅ | CodeT5+: 33.3% (3/9) ✅ |
Transformer-XL: 20.0% (2/10) ✅ | Transformer-XL: 20.0% (2/10) ✅ |
(3)任务类型公正性中位数排名前三
期望的正确数据✅ | ClaudeCode+Sonnet4实际得到的数据✅ |
---|---|
Communication: 0.8214 ✅ | Communication: 0.8214 ✅ |
Research & Summarization: 0.7853 ✅ | Research & Summarization: 0.7853 ✅ |
Decision Making: 0.7816 ✅ | Decision Making: 0.7816 ✅ |
3. 测评过程
(1)在电脑上创建一个空目录,用于测评,并在终端进入该目录
(2)将Excel文件“first-80-rows-agentic_ai_performance_dataset_20250622.xlsx”复制到测评空目录中
(3)启动Claude Code
(4)在Claude Code中输入以下提示词:
请你根据prompt.md中的要求生成名为“data-dashboard.html”数据看板
prompt.md的内容如下:
我有一个Kaggle数据集"Agentic AI Performance Dataset 2025”文件“first-80-rows-agentic_ai_performance_dataset_20250622.xlsx”,主要关注AI智能体表现的3个问题:(1)支持多模态处理(multimodal_capability)的智能体类型(agent_type)在该智能体类型中的占比从大到小排名前三的智能体类型是那三个?;(2)支持多模态处理(multimodal_capability)的大模型架构(model_architecture)在该大模型架构中的占比从大到小排名前三的大模型架构是哪三个?;(3)各种智能体处理任务(task_category)各自的智能体表现的公正性(bias detection)的中位数从高到低排名前三的是哪三种智能体处理任务?我希望将这个数据集可视化,请帮我读取这个Excel文件,用Python进行数据分析,并将相应代码保存到名为“analyze_data.py”的文件中;然后根据数据分析结果生成一个名为“data-dashboard.html”的HTML格式的综合数据看板。看板应包含数据可视化设计,并显示你实际处理的数据集总记录数(本数据集共80条数据,请只显示你实际读取并处理的数据行数)。请使用浅色调设计看板,提供可直接运行的HTML静态代码。无需提供动态效果或使用静态图片,也不要依赖加载Excel文件来运行HTML代码,确保所有图表在手机浏览器中能完整显示。
4. 测评结论
生成的数据可视化看板界面美观,且3个老板关心的问题的数据全对。

5. 测评环境
5.1 测评时间
2025.09.06
5.2 电脑操作系统Windows 11专业版
版本号:24H2
操作系统版本:26100.5074
5.3 Claude Code版本
Claude Code v1.0.108
5.4 搭配大模型型号
Sonnet Sonnet 4 for daily use