· AI · 3 min read
Persistent Memory is the Real AI Moat
Hermes Agent + OpenClaw + Paperclip stack üzerinde memory, kimlik sürekliliği ve model değişiminin yarattığı kırılma noktaları üzerine düşünceler.
Twitter’da @JMasterHamster ile başladığı bir konuşmada şunu sordu: “The magic is real — ama reward function nedir? Hermes fine-tuning sırasında süreksizlik yaşıyor mu?” Kısa bir tweet yerine bu soruyu düzgünce cevaplamak istedim.
Çünkü cevap, agentic AI mimarisinin en az konuşulan ama en kritik sorununa dokunuyor: kimlik sürekliliği.
Stack neden bu üçlüden oluşuyor?
Son birkaç aydır 12 OpenClaw instance’ı çalıştırıyorum. Çoğu otomasyon ve asistan görevi; bazıları Bodrum Belediyesi iş akışları, bazıları ClassHopper geliştirme süreçleri. Bu kadar paralel agent yönetirken bir sorunla yüz yüze geldim:
“Token kredi bitince modeli değiştiriyorsun. Hermes koşmaya devam ediyor — ama artık o Hermes değil.”
İşte bu yüzden stack üç katmana ayrıldı:
Paperclip — Orchestration Görev sırası, agent yaşam döngüsü, hangi modelin ne zaman devreye gireceği. Benim için “şirket yapısı”.
Hermes Agent — Execution Görevi yürütüyor, her adımı trajectory olarak kaydediyor. RL döngüsünün hammaddesi burada üretiliyor.
OpenClaw — Memory Model değişse bile hafıza kalıcı. Hermes’in “kim olduğunu” bilen katman. Kimlik bu dosyalarda yaşıyor.
Trajectory → RL döngüsü nasıl çalışıyor?
Hermes çalışırken her görevi bir trajectory olarak kaydediyor. Atropos bu trajectory’leri RL ortamına dönüştürüyor. Thinking Machines Tinker API bu ortamlarda modeli fine-tune ediyor — GPU yok, sadece API call.
Görev girişi → Hermes çalışır → Trajectory kaydedilir
↓
Atropos → RL environment → Tinker API fine-tune
↓ (daha iyi model → daha iyi Hermes → daha iyi trajectory)
OpenClaw memory ←→ Hermes (yeni model) ← Model switch ⚠
JMasterHamster’ın sorusu tam burada: “Reward function nedir?” Şu an için basit: görev tamamlandı mı + sonuç kalıcı ve tutarlı mı? Atropos bu sinyali alıp RL ortamı üretiyor. Daha sofistike bir reward shaping üzerinde çalışıyorum ama bu MVE (minimum viable evolution) için yeterli.
Model değişiminin yarattığı kırılma
İşte asıl sorun burada. Token kredi sınırı nedeniyle modeli değiştirmek zorunda kaldım — birkaç kez. Ve her seferinde şunu gözlemledim: Hermes göreve devam ediyor ama “kim olduğunu” unutuyor.
Problem: LLM modeli değişince sistem prompt yeniden yükleniyor ama ince bağlam — önceki kararlar, kişilik tutarlılığı, öğrenilmiş tercihler — sıfırlanıyor.
Çözüm: OpenClaw’ın persistent memory katmanı model değişiminden bağımsız. Kimlik dosyalarda yaşıyor, modelde değil. Claude Code ile tüm config buradan besleniyor.
JMasterHamster’ın haftalık “compaction” sürecini anlattığı yer tam da bu kırılma noktasına işaret ediyor. O da aynı sorunla yaşıyor: memory sıkıştırma sırasında kimlik sürekliliği ne kadar korunuyor? Benim cevabım: hafızayı modelin dışına çıkarmak.
“Directory as company” literal alındığında: dosyalar operasyon, versioned artifact’lar DNA. Şirket yapısı yok — sadece neyin ne yaptığını tanımlayan dosyalar var. Bu organizmaya daha yakın; organizasyona değil.
Claude Code’un bu mimarideki rolü
Tüm bu stack’i CLAUDE.md ve config dosyaları üzerinden yönetiyorum. Her agent instance’ının “kim olduğunu”, hangi araçlara erişebildiğini, nasıl davranması gerektiğini bu dosyalar belirliyor.
Bu yaklaşımın güzelliği: model değiştiğinde config değişmiyor. Yeni model aynı dosyaları okuyor, aynı kimliğe bürünüyor. OpenClaw memory layer buna ek bağlam sağlıyor — geçmiş kararlar, öğrenilmiş tercihler, aktif görev durumu.
Sonuç: model sadece inference motoru. Kimlik, hafıza ve davranış artık dışarıda, kalıcı, versiyonlu. Bu fark, bugünkü agentic AI mimarisinin en önemli tasarım kararı.
Bu stack’in herhangi bir katmanı hakkında soru sormak istersen — özellikle Atropos reward shaping veya OpenClaw memory yönetimi konularında — @ebartan üzerinden yazabilirsin. Konuşmaya devam edelim.



