langsmith-self-hosted-reference-aws/PROD_CHECKLIST.md at b0bbaf28da6571db7f0c55a0758123153dff016b

Cory Waddingham e086485ba6 docs: incorporate infra team feedback - make production requirements explicit

Update documentation to reflect infrastructure team decisions with clear,
opinionated language and explicit production vs non-production boundaries.

Changes:
- Blob storage (S3) is now REQUIRED for production (not recommended)
- EBS CSI Driver requirement added for ClickHouse persistence on EKS
- HPA is required; KEDA positioned as optional P1/advanced autoscaling
- Added rationale sections explaining why these requirements exist

README.md:
- Updated architecture diagram to show S3 as required for production
- Added storage requirements (EBS CSI Driver) in Compute section
- Added autoscaling requirements (HPA required, KEDA optional)
- Changed blob storage section to 'Required for Production'
- Added Section 7.5: Production Requirements Summary with rationale

PROD_CHECKLIST.md:
- Changed Section 4 header from 'STRONGLY RECOMMENDED' to 'REQUIRED FOR PRODUCTION'
- Added Non-Production Guidance subsection for dev/eval scenarios
- Added Kubernetes Storage / EBS CSI section under ClickHouse
- Added new Section 5: Autoscaling (HPA REQUIRED; KEDA OPTIONAL)
- Updated final sign-off to reference production requirements

All changes use direct, operational language with minimal duplication.

9.1 KiB

Raw Blame History

Self-Hosted LangSmith — Production Readiness Checklist

1. Redis (Cache & Job Queues)

2. PostgreSQL (Metadata)

Architecture & Sizing

Connections & Limits

Operational Readiness

3. ClickHouse (Traces & Analytics) (REQUIRED)

Topology

Resource Sizing

Kubernetes Storage / EBS CSI (REQUIRED FOR CLICKHOUSE ON EKS)

4. Blob Storage (REQUIRED FOR PRODUCTION)

Production Requirements

Non-Production Guidance

5. Autoscaling (HPA REQUIRED; KEDA OPTIONAL)

Horizontal Pod Autoscaler (HPA) - Required

KEDA (Optional / Advanced)

6. Scaling Mental Model (UNDERSTOOD)

7. Networking & Proxies

8. Operational Safeguards

9. Optional Performance Levers (NOT FIXES)

10. Diagnostics & Support Readiness

11. Known Failure Mode Awareness

Final Sign-off

9.1 KiB Raw Blame History

Self-Hosted LangSmith — Production Readiness Checklist

1. Redis (Cache & Job Queues)

2. PostgreSQL (Metadata)

Architecture & Sizing

Connections & Limits

Operational Readiness

3. ClickHouse (Traces & Analytics) (REQUIRED)

Topology

Resource Sizing

Kubernetes Storage / EBS CSI (REQUIRED FOR CLICKHOUSE ON EKS)

4. Blob Storage (REQUIRED FOR PRODUCTION)

Production Requirements

Non-Production Guidance

5. Autoscaling (HPA REQUIRED; KEDA OPTIONAL)

Horizontal Pod Autoscaler (HPA) - Required

KEDA (Optional / Advanced)

6. Scaling Mental Model (UNDERSTOOD)

7. Networking & Proxies

8. Operational Safeguards

9. Optional Performance Levers (NOT FIXES)

10. Diagnostics & Support Readiness

11. Known Failure Mode Awareness

Final Sign-off

9.1 KiB

Raw Blame History