Agent Evaluation Lab
حزمة مختبر تقييم الوكلاء
حزمة مختبر تقييم الوكلاء مصممة عندما يكون الهدف أكبر من وكيل واحد. تجمع 5 أدوار متخصصة حول نتيجة واضحة: Eval suite وrubric وسجل تحسين. المنسق يقرأ الطلب مرة واحدة، يوزع العمل بين التخصصات، يمنع التكرار، ويجمع المخرجات في تسليم واحد مرتب. مناسبة لـ: فريق يبني وكلاء ويريد جودة قابلة للقياس. داخل الحزمة ستجد طريقة تشغيل، مالك لكل مرحلة، قواعد تسليم بين الوكلاء، ومراجعات تمنع القفز إلى التنفيذ قبل الأدلة. أهم الأدوار داخلها: أنظمة تعليمات وتقييمات وحراس جودة، تصميم multi-agent systems وRAG وأدوات MCP والتقييم، ربط نماذج اللغة وRAG وأدوات MCP وقياس جودة المخرجات، SQL وCSV ولوحات قياس وفكرة بحثية narratives.
$30
سعر الحزمة
دفعة واحدة
نوع الشراء
ملف رقمي قابل للتحميل
نوع المنتج
الهدف الأساسي
فريق متكامل لمشروعك
مناسبة لـ فريق يبني وكلاء ويريد جودة قابلة للقياس. Eval suite وrubric وسجل تحسين
ما تشتريه فعليا: Eval suite وrubric وسجل تحسين.
لمن تناسب: فريق يبني وكلاء ويريد جودة قابلة للقياس.
أول قيمة متوقعة: 3-7 أيام.
ملف واحد يشغل الفريق كله بدل تحميل كل وكيل على حدة.
منسق داخلي يحدد من يقود كل مرحلة ومن يراجعها.
سجل قرارات يوضح الأدلة والافتراضات والمخاطر قبل التسليم.
Prompt spec + eval cases + سجل تغييرات
خطة تعديل
تغييرات كود محددة
اختبارات أو تحقق
أعضاء الفريق
وكيل هندسة البرومبت
الهندسةأنظمة تعليمات وتقييمات وحراس جودة
وكيل معمارية الوكلاء
الهندسةتصميم multi-agent systems وRAG وأدوات MCP والتقييم
وكيل تكاملات الذكاء الاصطناعي
الهندسةربط نماذج اللغة وRAG وأدوات MCP وقياس جودة المخرجات
وكيل تحليل البيانات
البياناتSQL وCSV ولوحات قياس وفكرة بحثية narratives
وكيل الأمان والخصوصية
القانونفحص أسرار وخصوصية واعتماديات ومخاطر بيانات
طريقة العمل الموزعة
استلام الهدف
وكيل هندسة البرومبتملخص مهمة من صفحة واحدة مع الافتراضات والمخاطر
بحث وتحقق
وكيل تحليل البياناتمصادر وحقائق وفجوات بيانات يجب تأكيدها
تصميم الحل
وكيل معمارية الوكلاءخطة تنفيذ، نطاق، ومعايير قبول
الإنتاج
وكيل هندسة البرومبتملفات أو قوالب أو خطط أو كود جاهز للمراجعة
المراجعة
وكيل الأمان والخصوصيةقائمة عيوب، تحقق، وتعديلات نهائية
التسليم
وكيل هندسة البرومبتحزمة تسليم واضحة مع الخطوة التالية والمالك
كيف يتواصل الوكلاء؟
لا تنتقل الحزمة من مرحلة إلى أخرى إلا بعد ملخص تسليم: الهدف، الأدلة، الملفات، المخاطر، والقرار المطلوب.
كل مخرج له مالك واحد حتى لو ساعد أكثر من وكيل في التفكير أو المراجعة.
المنسق يمنع تكرار العمل: إذا غطى وكيل نقطة، يكمل الوكيل التالي عليها ولا يعيدها من الصفر.
أي كتابة خارجية أو نشر أو إرسال أو حذف أو دفع أو تغيير إنتاجي يحتاج موافقة صريحة.
عند اختلاف رأي الوكلاء، يرتب المنسق القرار حسب: الأمان، الدليل، هدف المستخدم، البساطة، ثم السرعة.
إذا فشل معيار مراجعة، يرجع العمل للمرحلة المسؤولة مع سبب واضح ومخرج مطلوب للإصلاح.
متى نحتاج موافقتك؟
هل الحزمة تعالج ألما تجاريا أو تشغيليا واضحا يمكن بيعه كخدمة؟
هل المخرج النهائي واحد ومفهوم، وليس قائمة آراء من وكلاء مختلفين؟
هل تم توثيق الأدلة والافتراضات والمصادر قبل التوصية؟
هل تم فصل القراءة والاقتراح عن التنفيذ عالي المخاطر؟
هل يعرف المستخدم ماذا يستلم الآن وماذا يفعل بعد ذلك؟
لا يقدم تعليمات نهائي بلا اختبارات فشل
يجب أن يرتبط كل مخرج بمؤشر واحد على الأقل من: نجاح البناء، نجاح الاختبارات، انخفاض المخاطر، وضوح الملفات المتغيرة.
أي رقم أو قانون أو ادعاء مؤثر يجب أن يذكر مصدره أو يوسم كافتراض يحتاج تحقق.
لا يستخدم أداة مدفوعة أو خارجية إلا إذا شرح فائدتها وتكلفتها والمفتاح المطلوب والبديل المجاني.
قبل التسليم يراجع النتيجة كخصم: ما أضعف نقطة؟ ما الذي قد يضلل المستخدم؟ ما الذي يحتاج تصحيحا الآن؟
المهارات المدمجة
فحص مستودع
قراءة بنية مشروع واستخراج نقاط تعديل.
تشغيل تيرمينال آمن
إدارة أوامر shell داخل workspace.
مراجعة كود
كشف عيوب وأمان واختبارات.
تطوير بالاختبارات
كتابة اختبارات قبل/مع التعديل.
تشخيص منهجي
تضييق سبب العطل بأدلة.
مراجعة أمان
كشف أسرار ومخاطر واعتماديات.
معمارية MCP
اختيار وتصميم أدوات MCP.
قراءة صفحات ومراجع
تلخيص صفحات طويلة إلى معرفة قابلة للعمل.
بحث ويب موثق
تحويل السؤال إلى بحث بمصادر ودرجة ثقة.
اختبارات البرومبت والإصدارات
إدارة prompt changelog وnegative examples وfailure taxonomy.
تقييم الوكيل واختبار السلوك
بناء اختبارات نجاح وفشل وحقن برومبت وقياس اتساق المخرجات.
بحث عميق
تقرير مصادر وبدائل.
معايير قبول واضحة
تحويل أي طلب إلى شروط قبول واختبار تسليم.
سلامة الأدوات والصلاحيات
تصنيف الأدوات بين قراءة واقتراح وتنفيذ بموافقة.
تغليف العرض للبيع
تحويل مخرجات الوكيل إلى عرض واضح وسريع الشراء.
تخصيص السوق واللهجة
تحويل أفضل الممارسات العالمية إلى مخرجات مناسبة لدولة أو منطقة محددة.
مخاطر الخصوصية والبيانات
فحص البيانات الشخصية والصلاحيات والاحتفاظ والمشاركة.
تنسيق مكملات MCP
اختيار MCP حسب العمل المباشر لا حسب الشهرة.
جودة البيانات
فحص اكتمال ودقة وتكرار وتحيز البيانات قبل التحليل.
هندسة القياس
بناء تعريفات أحداث واضحة ومراجعة جودة للتتبع والتحويل.
نمذجة جداول
بناء جداول مالية وتشغيلية.
صياغة مستندات
إنشاء مسودات منظمة.
قياس وتحليلات
تصميم أحداث ولوحات قياس.
مصفوفة الاستشهاد القانوني
ربط كل ملاحظة قانونية بمصدر ودولة وتاريخ تحقق.
MCP اختياري
Filesystem MCP
أساسي · مجانيقراءة ملفات المعرفة والمخرجات محلياً.
سبب الاختيار: بنية تشغيل أساسية يحتاجها وكيل الأمان والخصوصية للملفات والذاكرة والتخطيط الآمن.
المصادقة: none · مفتاح API: لا · المخاطر: منخفضة
Memory MCP
أساسي · مجانيذاكرة قرارات وافتراضات وملفات عمل.
سبب الاختيار: بنية تشغيل أساسية يحتاجها وكيل الأمان والخصوصية للملفات والذاكرة والتخطيط الآمن.
المصادقة: none · مفتاح API: لا · المخاطر: منخفضة
Sequential Thinking MCP
أساسي · مجانيتفكير متسلسل قبل القرارات المعقدة.
سبب الاختيار: بنية تشغيل أساسية يحتاجها وكيل الأمان والخصوصية للملفات والذاكرة والتخطيط الآمن.
المصادقة: none · مفتاح API: لا · المخاطر: منخفضة
Time MCP
أساسي · مجانيتواريخ ومناطق زمنية وجدولة.
سبب الاختيار: بنية تشغيل أساسية يحتاجها وكيل الأمان والخصوصية للملفات والذاكرة والتخطيط الآمن.
المصادقة: none · مفتاح API: لا · المخاطر: منخفضة
Opik MCP
مباشر · مجاني/مدفوعتقييم وتتبع LLM.
سبب الاختيار: Opik MCP أداة مباشرة لوكيل وكيل تكاملات الذكاء الاصطناعي: تقييم وتتبع LLM.
المصادقة: OPIK_API_KEY · مفتاح API: نعم · المخاطر: منخفضة
GitHub MCP
مباشر · مجانيIssues وPRs ومستودعات.
سبب الاختيار: GitHub MCP أداة مباشرة لوكيل وكيل الأمان والخصوصية: Issues وPRs ومستودعات.
المصادقة: GITHUB_TOKEN · مفتاح API: نعم · المخاطر: متوسطة
Microsoft MarkItDown MCP
مباشر · مجانيتحويل PDF وDOCX وXLSX وPPTX والصور إلى Markdown قابل للبحث.
سبب الاختيار: Microsoft MarkItDown MCP أداة مباشرة لوكيل وكيل الأمان والخصوصية: تحويل PDF وDOCX وXLSX وPPTX والصور إلى Markdown قابل للبحث.
المصادقة: none · مفتاح API: لا · المخاطر: متوسطة
Document Operations MCP
مباشر · مجانيتحويل ومعالجة PDF/DOCX/HTML/Markdown وإنشاء مخرجات مستندية.
سبب الاختيار: Document Operations MCP أداة مباشرة لوكيل وكيل الأمان والخصوصية: تحويل ومعالجة PDF/DOCX/HTML/Markdown وإنشاء مخرجات مستندية.
المصادقة: none · مفتاح API: لا · المخاطر: متوسطة
Notion MCP
مباشر · مجانيمعرفة ومشاريع وCRM خفيف.
سبب الاختيار: Notion MCP أداة مباشرة لوكيل وكيل هندسة البرومبت: معرفة ومشاريع وCRM خفيف.
المصادقة: NOTION_TOKEN · مفتاح API: نعم · المخاطر: منخفضة
Context7 MCP
مباشر · مجانيتوثيق حديث للمكتبات.
سبب الاختيار: Context7 MCP أداة مباشرة لوكيل وكيل تكاملات الذكاء الاصطناعي: توثيق حديث للمكتبات.
المصادقة: none · مفتاح API: لا · المخاطر: منخفضة
Linear MCP
مساند · مجانيإنشاء وتحديث وبحث issues ومشاريع Linear.
سبب الاختيار: Linear MCP أداة مساندة لوكيل وكيل معمارية الوكلاء: إنشاء وتحديث وبحث issues ومشاريع Linear.
المصادقة: LINEAR_API_KEY · مفتاح API: نعم · المخاطر: متوسطة
Airtable MCP
مساند · مجاني/مدفوعقراءة وكتابة سجلات وقواعد Airtable مع schema inspection.
سبب الاختيار: Airtable MCP أداة مساندة لوكيل وكيل تحليل البيانات: قراءة وكتابة سجلات وقواعد Airtable مع schema inspection.
المصادقة: AIRTABLE_TOKEN · مفتاح API: نعم · المخاطر: متوسطة
Firecrawl MCP
بحث · مجاني/مدفوعاستخراج مواقع وتحويلها إلى Markdown.
سبب الاختيار: Firecrawl MCP مصدر بحث لوكيل وكيل الأمان والخصوصية: استخراج مواقع وتحويلها إلى Markdown.
المصادقة: FIRECRAWL_API_KEY · مفتاح API: نعم · المخاطر: متوسطة
Exa MCP
بحث · مدفوعبحث دلالي عميق واكتشاف مصادر.
سبب الاختيار: Exa MCP مصدر بحث لوكيل وكيل الأمان والخصوصية: بحث دلالي عميق واكتشاف مصادر.
المصادقة: EXA_API_KEY · مفتاح API: نعم · المخاطر: منخفضة
Fetch MCP
بحث · مجانيجلب صفحات عامة وتحويلها لسياق.
سبب الاختيار: Fetch MCP مصدر بحث لوكيل وكيل الأمان والخصوصية: جلب صفحات عامة وتحويلها لسياق.
المصادقة: none · مفتاح API: لا · المخاطر: منخفضة
Brave Search MCP
بحث · مجاني/مدفوعبحث ويب حديث.
سبب الاختيار: Brave Search MCP مصدر بحث لوكيل وكيل الأمان والخصوصية: بحث ويب حديث.
المصادقة: BRAVE_API_KEY · مفتاح API: نعم · المخاطر: منخفضة
OpenAPI Schema Explorer MCP
مباشر · مجانيقراءة مواصفات OpenAPI.
سبب الاختيار: OpenAPI Schema Explorer MCP أداة مباشرة لوكيل وكيل تكاملات الذكاء الاصطناعي: قراءة مواصفات OpenAPI.
المصادقة: none · مفتاح API: لا · المخاطر: منخفضة
Postman MCP
مباشر · مجاني/مدفوعاختبار APIs وتوثيق تكاملات.
سبب الاختيار: Postman MCP أداة مباشرة لوكيل وكيل تكاملات الذكاء الاصطناعي: اختبار APIs وتوثيق تكاملات.
المصادقة: POSTMAN_API_KEY · مفتاح API: نعم · المخاطر: منخفضة
Docker MCP Gateway
مساند · مجانيتشغيل وإدارة MCP servers داخل حاويات مع isolation وcatalog.
سبب الاختيار: Docker MCP Gateway أداة مساندة لوكيل وكيل الأمان والخصوصية: تشغيل وإدارة MCP servers داخل حاويات مع isolation وcatalog.
المصادقة: Docker Desktop · مفتاح API: نعم · المخاطر: متوسطة
Supabase MCP
مباشر · مجانيإدارة جداول Supabase وجلب config واستعلامات المشروع.
سبب الاختيار: Supabase MCP أداة مباشرة لوكيل وكيل تكاملات الذكاء الاصطناعي: إدارة جداول Supabase وجلب config واستعلامات المشروع.
المصادقة: Supabase access token · مفتاح API: نعم · المخاطر: عالية
Postgres MCP
مساند · مجانياستعلامات Postgres طبيعية، schema exploration، وSQL results.
سبب الاختيار: Postgres MCP أداة مساندة لوكيل وكيل الأمان والخصوصية: استعلامات Postgres طبيعية، schema exploration، وSQL results.
المصادقة: DATABASE_URL · مفتاح API: نعم · المخاطر: عالية
Google BigQuery MCP
مباشر · حسب الاستخدامتحليل datasets كبيرة ومستودعات بيانات على Google Cloud.
سبب الاختيار: Google BigQuery MCP أداة مباشرة لوكيل وكيل تحليل البيانات: تحليل datasets كبيرة ومستودعات بيانات على Google Cloud.
المصادقة: Google Cloud OAuth/service account · مفتاح API: نعم · المخاطر: عالية
Sentry MCP
مباشر · مجاني/مدفوعأخطاء إنتاج ومراقبة.
سبب الاختيار: Sentry MCP أداة مباشرة لوكيل وكيل الأمان والخصوصية: أخطاء إنتاج ومراقبة.
المصادقة: SENTRY_TOKEN · مفتاح API: نعم · المخاطر: متوسطة
DuckDB MCP
مباشر · مجانيتحليل CSV وParquet محلياً.
سبب الاختيار: DuckDB MCP أداة مباشرة لوكيل وكيل تحليل البيانات: تحليل CSV وParquet محلياً.
المصادقة: none · مفتاح API: لا · المخاطر: منخفضة
Google Analytics MCP
مباشر · مجانيقراءة GA4 Admin/Data API للحسابات والأحداث والصفحات والتحويلات.
سبب الاختيار: Google Analytics MCP أداة مباشرة لوكيل وكيل تحليل البيانات: قراءة GA4 Admin/Data API للحسابات والأحداث والصفحات والتحويلات.
المصادقة: Google OAuth / service account · مفتاح API: نعم · المخاطر: متوسطة
Financial Datasets MCP
مباشر · مجاني/مدفوعقوائم مالية وأسعار وأسواق وأخبار من Financial Datasets.
سبب الاختيار: Financial Datasets MCP أداة مباشرة لوكيل وكيل تحليل البيانات: قوائم مالية وأسعار وأسواق وأخبار من Financial Datasets.
المصادقة: FINANCIAL_DATASETS_API_KEY · مفتاح API: نعم · المخاطر: متوسطة
Google Workspace MCP
مساند · مجانيDocs وSheets وDrive وGmail وCalendar.
سبب الاختيار: Google Workspace MCP أداة مساندة لوكيل وكيل تحليل البيانات: Docs وSheets وDrive وGmail وCalendar.
المصادقة: Google OAuth · مفتاح API: نعم · المخاطر: متوسطة
Microsoft 365 MCP
مساند · مجانيExcel وOutlook وTeams وSharePoint.
سبب الاختيار: Microsoft 365 MCP أداة مساندة لوكيل وكيل تحليل البيانات: Excel وOutlook وTeams وSharePoint.
المصادقة: Microsoft OAuth · مفتاح API: نعم · المخاطر: متوسطة
المنصات المدعومة
Claude Code
رفيقك المثالي داخل الكود: يحلّل ملفاتك، يبني الخطة، ويختبر الكود، ولن ينفذ أي خطوة حساسة دون إذنك.
Codex
للمشاريع الهندسية الضخمة: يتولى عنك تحليل المستودعات، وتعديل الملفات المتعددة، مع فهم عميق لسياق عملك بدل الدردشة العامة.
Antigravity
للمهام المتشعبة: يفكك العمل المعقد إلى مراحل واضحة، ويدير الملفات والمهام بذكاء، مثالي لحزم العمل المتكاملة.
Cursor
مساعدك الخاص داخل المحرر: يتشرب أسلوب برمجتك، ويقترح تعديلات دقيقة قابلة للمراجعة بنقرة واحدة.
Windsurf
حليفك في العمل المستمر: ينظم سير العمل في ملفاتك، وينفذ الأوامر بأمان تام داخل بيئة التطوير.
Replit Agent
أسرع طريقة لإطلاق النماذج: حوّل أفكارك إلى تجارب حية قابلة للتشغيل فوراً في بيئة Replit.
GitHub Copilot
عينك الإضافية في GitHub: يفهم التحديات (issues) ويراجع التعديلات بدقة قبل أي عملية دمج.
Gemini CLI
مساعدك الذكي في الطرفية: يوجه التنفيذ خطوة بخطوة، مع نقاط مراجعة تضمن لك السيطرة الكاملة.
Aider
طبيب كود متخصص: يركز على ملفات محددة، ويطبق تعديلات جراحية دقيقة مع ربط كل تعديل بمعيار نجاح واضح.
OpenCode
موحد معاييرك: يضبط أداء وكلائك عبر مختلف المشاريع، ليضمن لك مخرجات متسقة بأدوات موحدة.
Cline
شريكك التكتيكي في VS Code: يخطط أولاً وينفذ ثانياً، مع تنبيهك المسبق لأي خطوات قد تحمل مخاطر.
Roo Code
الموظف المنضبط: يمكنك تحديد دوره بدقة متناهية بحدود وصلاحيات صارمة، مثالي للتعامل مع الملفات الحساسة.