معالجة الدفعات
عند العمل مع مجموعات ذاكرة كبيرة، يكون تضمين نص واحد في كل مرة غير فعّال. يدعم PRX-Memory التضمين المجمع لتقليل رحلات API الذهاب والإياب وتحسين الإنتاجية.
كيف يعمل التضمين المجمع
بدلاً من إجراء طلبات API فردية لكل ذاكرة، تجمع معالجة الدفعات نصوصاً متعددة في طلب واحد. تدعم معظم مزودي التضمين أحجام دفعة من 100 إلى 2048 نصاً لكل طلب.
graph LR
subgraph Individual["Individual (slow)"]
T1["Text 1"] --> API1["API Call 1"]
T2["Text 2"] --> API2["API Call 2"]
T3["Text 3"] --> API3["API Call 3"]
end
subgraph Batch["Batch (fast)"]
B1["Text 1"] --> BATCH["Single API Call"]
B2["Text 2"] --> BATCH
B3["Text 3"] --> BATCH
end2
3
4
5
6
7
8
9
10
11
12
حالات الاستخدام
الاستيراد الأولي
عند استيراد مجموعة كبيرة من المعرفة الموجودة، استخدم memory_import لتحميل الذكريات وتشغيل التضمين المجمع:
{
"jsonrpc": "2.0",
"id": 1,
"method": "tools/call",
"params": {
"name": "memory_import",
"arguments": {
"data": "... exported memory JSON ..."
}
}
}2
3
4
5
6
7
8
9
10
11
إعادة التضمين بعد تغيير النموذج
عند التبديل إلى نموذج تضمين جديد، تعالج أداة memory_reembed جميع الذكريات المخزّنة في دفعات:
{
"jsonrpc": "2.0",
"id": 1,
"method": "tools/call",
"params": {
"name": "memory_reembed",
"arguments": {}
}
}2
3
4
5
6
7
8
9
ضغط التخزين
تحسّن أداة memory_compact التخزين ويمكنها تشغيل إعادة التضمين للإدخالات ذات المتجهات القديمة أو المفقودة:
{
"jsonrpc": "2.0",
"id": 1,
"method": "tools/call",
"params": {
"name": "memory_compact",
"arguments": {}
}
}2
3
4
5
6
7
8
9
نصائح الأداء
| النصيحة | الوصف |
|---|---|
| استخدام مزودين يدعمون الدفعات | تدعم نقاط نهاية Jina وOpenAI-compatible أحجام دفعة كبيرة |
| الجدولة خلال انخفاض الاستخدام | تتنافس عمليات الدفعة على حصة API ذاتها مع الاستعلامات الآنية |
| المراقبة عبر المقاييس | استخدم نقطة نهاية /metrics لتتبع عدد طلبات التضمين وفترات الكمون |
| اختيار نماذج فعّالة | تضمين النماذج الأصغر (768 بُعداً) أسرع من الأكبر (3072 بُعداً) |
تحديد المعدل
تفرض معظم مزودي التضمين حدوداً للمعدل. يتعامل PRX-Memory مع استجابات تحديد المعدل (HTTP 429) بتراجع تلقائي. إذا واجهت تحديداً مستمراً للمعدل:
- قلّل حجم الدفعة بمعالجة ذكريات أقل في كل مرة.
- استخدم مزوّداً بحدود معدل أعلى.
- وزّع عمليات الدفعة على نافذة زمنية أطول.
TIP
لعمليات إعادة التضمين الضخمة، فكّر في استخدام خادم استنتاج محلي لتجنب تحديد المعدل كلياً. اضبط PRX_EMBED_PROVIDER=openai-compatible ووجّه PRX_EMBED_BASE_URL إلى خادمك المحلي.
الخطوات التالية
- النماذج المدعومة -- اختيار نموذج التضمين المناسب
- واجهات التخزين -- أين تُخزَّن المتجهات
- مرجع الإعداد -- جميع متغيرات البيئة