Skip to content
تم إنشاء هذه الصفحة وترجمتها بمساعدة الذكاء الاصطناعي. إذا لاحظت أي أخطاء، لا تتردد في المساهمة في تحسينها. تعديل على GitHub

معالجة الدفعات

عند العمل مع مجموعات ذاكرة كبيرة، يكون تضمين نص واحد في كل مرة غير فعّال. يدعم PRX-Memory التضمين المجمع لتقليل رحلات API الذهاب والإياب وتحسين الإنتاجية.

كيف يعمل التضمين المجمع

بدلاً من إجراء طلبات API فردية لكل ذاكرة، تجمع معالجة الدفعات نصوصاً متعددة في طلب واحد. تدعم معظم مزودي التضمين أحجام دفعة من 100 إلى 2048 نصاً لكل طلب.

mermaid
graph LR
    subgraph Individual["Individual (slow)"]
        T1["Text 1"] --> API1["API Call 1"]
        T2["Text 2"] --> API2["API Call 2"]
        T3["Text 3"] --> API3["API Call 3"]
    end

    subgraph Batch["Batch (fast)"]
        B1["Text 1"] --> BATCH["Single API Call"]
        B2["Text 2"] --> BATCH
        B3["Text 3"] --> BATCH
    end

حالات الاستخدام

الاستيراد الأولي

عند استيراد مجموعة كبيرة من المعرفة الموجودة، استخدم memory_import لتحميل الذكريات وتشغيل التضمين المجمع:

json
{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "tools/call",
  "params": {
    "name": "memory_import",
    "arguments": {
      "data": "... exported memory JSON ..."
    }
  }
}

إعادة التضمين بعد تغيير النموذج

عند التبديل إلى نموذج تضمين جديد، تعالج أداة memory_reembed جميع الذكريات المخزّنة في دفعات:

json
{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "tools/call",
  "params": {
    "name": "memory_reembed",
    "arguments": {}
  }
}

ضغط التخزين

تحسّن أداة memory_compact التخزين ويمكنها تشغيل إعادة التضمين للإدخالات ذات المتجهات القديمة أو المفقودة:

json
{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "tools/call",
  "params": {
    "name": "memory_compact",
    "arguments": {}
  }
}

نصائح الأداء

النصيحةالوصف
استخدام مزودين يدعمون الدفعاتتدعم نقاط نهاية Jina وOpenAI-compatible أحجام دفعة كبيرة
الجدولة خلال انخفاض الاستخدامتتنافس عمليات الدفعة على حصة API ذاتها مع الاستعلامات الآنية
المراقبة عبر المقاييساستخدم نقطة نهاية /metrics لتتبع عدد طلبات التضمين وفترات الكمون
اختيار نماذج فعّالةتضمين النماذج الأصغر (768 بُعداً) أسرع من الأكبر (3072 بُعداً)

تحديد المعدل

تفرض معظم مزودي التضمين حدوداً للمعدل. يتعامل PRX-Memory مع استجابات تحديد المعدل (HTTP 429) بتراجع تلقائي. إذا واجهت تحديداً مستمراً للمعدل:

  • قلّل حجم الدفعة بمعالجة ذكريات أقل في كل مرة.
  • استخدم مزوّداً بحدود معدل أعلى.
  • وزّع عمليات الدفعة على نافذة زمنية أطول.

TIP

لعمليات إعادة التضمين الضخمة، فكّر في استخدام خادم استنتاج محلي لتجنب تحديد المعدل كلياً. اضبط PRX_EMBED_PROVIDER=openai-compatible ووجّه PRX_EMBED_BASE_URL إلى خادمك المحلي.

الخطوات التالية

Released under the Apache-2.0 License.