
这是6月5日的新闻院,技术媒体Marktechpost昨天(6月4日)发表了一篇博客文章,报道NVIDIA推出了Llama nemotron Nano VL Vision-Language模型(VLM),以有效且准确地处理文档级别的理解。基于Llama 3.1的架构,Llama Nemotron Nano VL包括Cradiov2-H视觉编码器和Llama 3.1 8B教学教学微型语言模型,可以在多页文档中同时处理视觉和文本元素,从而支持16K的上下文长度,从而覆盖文本和文本文本。该模型通过投影层和编码位置的旋转,令牌效率优化,特别适合长期多模式活动,可实现视觉文本对齐,这些效率优化,这些活动易于用于多图像输入或复杂的纺织品parseo。该模型的实践分为三个阶段:首先使用交错的图形和预培训文本用于使用商业图像和视频数据集;其次,通过微调多模式说明来提高互动能力;最后,将Plain的文本教学数据混音以优化标准语言模型基准的性能。使用NVIDIA MEGATRM框架和Energon数据加载器进行了培训,并使用A100和H100 GPU的簇完成。在OCRBENCH V2基准上,该模型在OCR,Table Review和Chart认知等任务中达到了领先的准确性,尤其是在结构化数据提取(例如表和键值)和与布局相关的问题中,与较大的模型相当。在部署方面,Llama Nemotron Nano VL设计为灵活,并支持服务器和边缘推理方案。 Nvidia提供了4位版本的卷(AWQ),结合了Tinychat和Tensorrt-llm,以实现良好的推理,并与诸如Jetson Orin之类的约束环境兼容。该模型还支持模块化NIM(NVIDIA推理微服务),ONNx和tensorrt出口。此外,NVIDIA通过预先计算的视觉嵌入选项进一步减少了静态图像文档文档的延迟,从而为业务应用提供了实用的解决方案。参考参考有房子