int4 - 搜索 News

在推理引擎层面，我们基于二值化矩阵乘（BTC）等价重构了任意精度组合的矩阵乘，从而突破了 INT4/INT8 计算单元的限制，开创性地实现了任意比特量化组合的直接加速，结合深度工程优化，实现了 decoding 阶段对 cutlass/cublas 加速库的大幅性能领先。在算法方面 ...

新浪网9 天

LLM领域首次实现量化推理自由，效果和性能双SOTA！字节开源ABQ-LLM

主流 GPU 对整数矩阵乘支持有限所引发的计算效率低下问题。在推理引擎层面，ABQ-LLM 基于二值化矩阵乘(BTC) 等价重构了任意精度组合的矩阵乘，从而突破了 INT4/INT8 计算单元的限制，开创性地实现了任意比特量化组合的直接加速，结合深度工程优化，实现了 ...

电子工程专辑15 天

半价！八核2.4GHz＋算力媲美Corei3，这款瑞芯微RK3588J开发板究竟有何 ...

好久没给大家分享福利，最近给大家争取到一个5折板卡的抢购福利！就是创龙科技旗下新推出的瑞芯微RK3588国产工业评估板，它的核心板国产化率100%，更可以提供国产化率认证报告！选型阶段的小伙伴有福了！之前错过其他活动的赶紧看过来！这次帮大家争取 ...

IT之家26 天

香橙派迅龙软件 OrangePi OS（OH）通过 OpenHarmony 认证：已完成 HDMI 适配 ...

该款开发板于去年 5 月发布，采用瑞芯微 RK3588 芯片，四核 A76 + 四核 A55，8nm 工艺设计，主频达 2.4GHz，集成 ARM Mali-G610，内置 3D GPU，兼容 OpenGL ES1.1/2.0/3.2、OpenCL 2.2 和 Vulkan 1.2；内嵌的 NPU 支持 INT4 / INT8 / INT16 / FP16 混合运算，算力达 6Tops。广告声明 ...

搜狐1 个月

源2.0-M32大模型发布4bit/8bit量化版! 运行显存仅需23GB，性能可媲美LLaMA3

而LLaMA3-70B运行显存为160GB，所需算力为140GFLOPs。源2.0-M32量化版是“源”大模型团队为进一步提高模算效率，降低大模型部署运行的计算资源要求而推出的版本，通过采用领先的量化技术，将原模型精度量化至int4和int8级别，并保持模型性能基本不变。源2.0-M32 ...

GitHub2 个月

Doby-Xu/GLM4-WeChat-Bot

一个简单的调用GLM4的微信自动回复机器人。 2024.9.11 更新：添加了豆包模型和扁鹊2模型接入。扁鹊模型将会被下载到本地，豆包模型为API调用，详见火山引擎文档与收费准则。 2024.8.3 更新：为微信机器人添加了多模态功能。使用前，你需要... have some knowledge ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果