erebras发布全球最快的AI推理系统

🚀 全球最快AI推理系统
Cerebras发布了全球最快的AI推理系统,显著提升AI处理速度。
Llama3.1 推理 API:8B 每秒 1,800 个Token,70B 每秒 450 个Token,比 NVIDA GPU 快约 20 倍,比 Groq 快约 2 倍。
价格仅为 GPU 云的百分之一,适用于大规模 AI 工作负载,性价比极高。
⚙️ 专为大规模AI任务设计
该系统专为处理大规模AI任务而设计,满足高计算需求。支持超大模型
Cerebras Inference可以处理那些太大以至于一个系统装不下的模型。他们通过把模型分成不同的部分,然后分别在多个系统上运行。例如,20亿参数的模型可以在一个Cerebras系统上运行,而70亿参数的模型则需要四个系统。
💡 突破性技术
通过突破性技术,Cerebras的系统能够在更短时间内处理更复杂的AI模型。
很多公司为了节省内存,把AI模型的精度从16位降到8位,这样虽然节省了资源,但会导致准确性下降。Cerebras选择保留16位的模型精度,这样做虽然占用的内存更多,但保证了模型的高准确性。在内部测试和第三方评估中,使用16位精度的模型在对话、数学计算和推理任务中的表现比8位精度的模型要好,得分高出大约5%。
🌍 API接入更方便
Cerebras推理平台现在开放给开发者使用。开发者可以通过一个简单的API接入到Cerebras的强大推理能力,并且可以像使用OpenAI的API一样方便。这个平台运行速度非常快,能够以每秒450个tokens的速度处理Llama3.1-70B这样的模型,保证了高精度和即时响应。此外,Cerebras还为开发者提供了每天100万个免费tokens。
🔗在线体验:https://inference.cerebras.ai
Free API key: http://cloud.cerebras.ai
详细介绍:https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed