1 post
Đề cương nghiên cứu HarnessEval — framework đánh giá hạ tầng coding agent đầu tiên, tách rời đóng góp của harness và LLM.