以下是一些维度
Posted: Mon Jan 06, 2025 4:21 am
质量 vs 延迟:像“思维链”(Chain of Thought, CoT)这样的技术非常有效地提高了质量并减少了幻觉现象。 但它们需要成员从未预想过的tokens,因此增加了成员感知到的延迟。 吞吐量 vs 延迟:在运行大模型时,通常情况是“首个Token响应时间”(TimeToFirstToken, TTFT)和“Token间响应时间”(TimeBetweenTokens, TBT)会随着使用率的增加而增加。
在TBT的情况下,有时延迟甚至会呈现线性增长。如果你愿意牺牲这两个方面的度量,获得每秒Tokens数(TokensPerSecond, TPS)的两倍或三倍增加是很容易的,但我们最初必须将它们限制得很紧。 (注:否则用户会 芬兰电话号码数据 觉得慢) 成本:GPU集群并不容易获得且成本高昂。在初期,我们甚至不得不为产品测试设定时间表,因为测试会消耗太多tokens并阻止开发人员工作。
端到端流式传输:一个完整的答案可能需要几分钟才能完成,因此我们让所有请求进行流式传输以减少感知到的延迟。 更重要的是,我们实际上在流程内部实现了端到端的流式传输。例如,大语言模型(LLM)的响应会逐步解析出应调用的API,并在参数准备好后立即发起API调用,而无需等待完整的LLM响应。 最终合成的响应也会通过我们的实时消息传递基础设施进行流式传输,并对信任/负责任的AI分类等内容进行增量处理,直至到达客户端。
在TBT的情况下,有时延迟甚至会呈现线性增长。如果你愿意牺牲这两个方面的度量,获得每秒Tokens数(TokensPerSecond, TPS)的两倍或三倍增加是很容易的,但我们最初必须将它们限制得很紧。 (注:否则用户会 芬兰电话号码数据 觉得慢) 成本:GPU集群并不容易获得且成本高昂。在初期,我们甚至不得不为产品测试设定时间表,因为测试会消耗太多tokens并阻止开发人员工作。
端到端流式传输:一个完整的答案可能需要几分钟才能完成,因此我们让所有请求进行流式传输以减少感知到的延迟。 更重要的是,我们实际上在流程内部实现了端到端的流式传输。例如,大语言模型(LLM)的响应会逐步解析出应调用的API,并在参数准备好后立即发起API调用,而无需等待完整的LLM响应。 最终合成的响应也会通过我们的实时消息传递基础设施进行流式传输,并对信任/负责任的AI分类等内容进行增量处理,直至到达客户端。