Evidently AI是一个开源的机器学习和大型语言模型(LLM)可观测性框架,旨在帮助用户评估、测试和监控AI驱动的产品。以下是其详细介绍:
Evidently AI官网:https://www.evidentlyai.com/

Evidently AI主要功能
• 预测任务评估
• 多种任务支持:对分类、回归、排名和推荐等预测任务进行输入和输出质量的评估。
• 丰富指标:提供多种评估指标,如准确度、精确度、召回率、ROC AUC、MAE、RMSE等。
• 数据漂移检测
• 变化检测:检测模型输入和输出的变化,提前发现潜在问题,了解环境变化和特征分布随时间的变化。
• 多种统计测试:提供20多种统计测试和距离度量来比较数据分布的变化。
• 数据质量监控
• 数据质量检查:在机器学习生命周期的各个阶段保持数据质量,自动分析和可视化数据集,发现缺失值、重复值、异常值和范围违规。
• 实时监控:通过监控UI服务,实时可视化指标和测试结果的时间序列。
• 模型性能跟踪
• 性能监控:对分类、回归、排名、推荐系统等模型的性能进行跟踪,提供丰富的视觉概览,轻松捕捉趋势和偏差。
• 可视化:提供开箱即用的交互式可视化,结果可以以Python对象、JSON、HTML、DataFrame等多种形式输出,或在监控UI中查看。
• 报告(Reports)
• 预设和自定义报告:计算各种数据、ML和LLM质量指标,用户可以选择预设报告或自定义内容。
• 多种输出格式:结果可以以Python对象、JSON、HTML、DataFrame等多种形式输出,或在监控UI中查看。
• 测试套件(Test Suites)
• 条件检查:检查指标值是否满足预定义的条件,并给出通过或失败的结果。
• 零配置选项:可以从参考数据集自动生成测试条件。
• 自定义测试条件:使用简单的语法设置自定义测试条件,如gt(大于)、lt(小于)等。
• 监控仪表板(Monitoring Dashboard)
• 可视化服务:帮助用户可视化指标和测试结果的时间序列。
• 自托管和云服务:可选择自托管开源版本或注册Evidently Cloud(推荐)。Evidently Cloud提供慷慨的免费套餐和额外功能,如用户管理、警报和无代码评估。
Evidently AI应用场景
• 文本描述符分析
• 文本评估:评估文本长度、情感、毒性、语言、特殊符号、正则表达式匹配等。
• LLM输出评估
• 语义评估:支持语义相似度、检索相关性、摘要质量等评估,包括基于模型和LLM的评估方法。
• 数据质量检查
• 数据完整性:检测缺失值、重复项、最小-最大范围、新的分类值、相关性等。
• 数据分布漂移分析
• 统计测试:提供20多种统计测试和距离度量来比较数据分布的变化。
• 分类模型评估
• 分类指标:支持准确度、精确度、召回率、ROC AUC、混淆矩阵、偏差等指标。
• 回归模型评估
• 回归指标:包括MAE、ME、RMSE、误差分布、误差正态性、误差偏差等指标。
• 排序(包括RAG)评估
• 排序指标:支持NDCG、MAP、MRR、命中率等指标。
• 推荐系统评估
• 推荐指标:可以评估意外性、新颖性、多样性、流行度偏差等。
Evidently AI适用人群
• 数据科学家:需要评估、测试和监控机器学习模型性能的专业人士,可以利用Evidently AI的丰富功能进行模型评估和数据质量检查。
• 机器学习工程师:需要在生产环境中监控和优化模型性能的工程师,可以利用Evidently AI的实时监控和数据漂移检测功能。
• AI开发者:希望集成AI监控功能到现有工作流程中的开发者,可以利用Evidently AI的灵活集成和自定义能力。
