Deprecated: Creation of dynamic property db::$querynum is deprecated in /www/wwwroot/www.wowoyolo.com/inc/func.php on line 1413

Deprecated: Creation of dynamic property db::$database is deprecated in /www/wwwroot/www.wowoyolo.com/inc/func.php on line 1414

Deprecated: Creation of dynamic property db::$Stmt is deprecated in /www/wwwroot/www.wowoyolo.com/inc/func.php on line 1453

Deprecated: Creation of dynamic property db::$Sql is deprecated in /www/wwwroot/www.wowoyolo.com/inc/func.php on line 1454
揭秘听见世界APP:人工智能公益助盲复旦眸思大模型打破视觉界限_kaiyunty-开云登录注册app|开云电竞直播
服务中心

揭秘听见世界APP:人工智能公益助盲复旦眸思大模型打破视觉界限

来源:kaiyunty    发布时间:2024-02-11 17:59:05

  随着科技的持续不断的发展,人工智能不仅在商业领域取得了巨大成功,也在公益事业中展现了强大的潜力。一部名为《听见世界》的公益短片在社会化媒体上引起了关注,它不仅让观众感受到深刻的情感共鸣,还展示了复旦眸思大模型如何借助AI科技为视障者打破视觉界限的努力。

  “在多模态大模型开发过程中,我们从始至终在探讨利用多模态大模型能具体做些什么。我们在眸思多模态大模型构建过程中使用了数亿张图片进行训练,其中有大量的自然场景,在测试过程中,我们得知它可以非常好地对自然环境,甚至是可以对非常罕见的自然场景做准确描述,”中工互联首席科学家、复旦大学计算机学院教授张奇讲道:“我们觉得这就像是机器长了眼睛。由此,我们很快想到将图像转换为语音,可以为盲人朋友在行走、寻找物品等场景下提供巨大的帮助。”

  张奇教授表示:眸思大模型提出了全新的多视觉专家混合架构。它将擅长图文匹配、光学字符识别(OCR)和图像分割等多种经典视觉任务的专家巧妙地融为一体。在各类场景中,眸思大模型展现出良好的性能和逻辑推理能力。

  中工互联(北京)科技集团有限公司创始人、董事长智振讲道:“眸思大模型是复旦大学NLP实验室的最新力作,代表国内科研机构最先进的技术水平。听见世界APP的表现非常惊艳。长远来看,随着人工智能技术的进步和未来脑机接口技术的突破,可能盲人朋友真就能看到世界了。要实现这一长远的目标,需要全世界科技工作人员共同的努力。”

  复旦大学自然语言处理实验室与复旦大学视觉与学习实验室在开发复旦眸思多模态大模型时就同步进行了听见世界项目的开发工作。该项目由复旦大学桂韬、纪焘、张奇、黄萱菁、邱锡鹏、吴祖煊、姜育刚等主导,樊晓然、江常皓、李烁、金森杰等近20名博士和硕士研究生共同参与了产品研发。

  “中工互联在整个项目的研发过程中给予了全方位的支持,”张奇教授讲道:“我们之间建立了良好的战略合作伙伴关系,在中工互联擅长的工业领域,我们一起利用多模态大模型,在图纸理解、产品质检和异常检测等领域开展了广泛的产品落地。”

  智振董事长表示:中工互联复旦大学联合实验室,以及智工工业大模型研发团队全程参与了项目研发。项目团队由顶级大学科研队伍和务实的产品落地成员组成。既有创新精神又可以高效快速落地。这种能力在智工工业大模型的研发中得以展现。

  听见世界APP采用安卓系统来进行开发,能支持最低端的智能手机。在后端模型架构层面,研发团队采用了非常灵活的部署策略,能够正常的使用智算中心的闲置算力,甚至是居民个人家庭中3090显卡的闲置时间。

  听见世界APP的全部识别功能都全部来源于眸思大模型,在不同的模式下预设了不同的Prompt,从而方便盲人朋友使用。

  据悉,听见世界APP产品目前设计了街道行走、物品寻找、自由问答和电视介绍等四种模式。它能成为视障人士的生活助手与智能管家。

  举个例子。当盲人朋友开启街道行走模式,听见世界APP会通过摄像头实时捕捉交通画面,并将画面传递给复旦眸思大模型,由模型识别当前场景中的情况,并对红绿灯、路口、台阶、坡道等信息进行重点识别,进而生成文字并合成语音,播放给盲人朋友。

  “其他模式与这个类似,都是通过摄像头捕捉图像,盲人朋友通过语音与模型进行交互,从而得到整体结果,”张奇教授讲道:“未来,我们会围绕盲人的衣食住用行等方方面面的需求,全面完善产品功能。让听见世界APP真正变成盲人的朋友的眼睛。”

  智振董事长表示:听见世界APP,我们为它找到了一个产品推广语我是你的眼,世界就在你耳边。这款产品既能成为盲人朋友生活的必备工具,让他们和正常人一样感受到世界的美好。

  张奇教授分析道:在大模型层面,我们目前有80亿、140亿和350亿等三个参数版本。即便采用80亿参数的版本,一个终端每小时所消耗的GPU计算费用在1元左右,估算下来,服务每个盲人朋友每个月大约需要150元左右。但是,我们大家都希望尽最大努力,协调各方资源,将这样的产品免费提供给盲人朋友。

  张奇教授表示:“在政府的支持下,我们计划与NGO组织、智算中心和硬件厂商等开展合作,致力于让盲人朋友免费使用产品和相关的服务。”

  “在人工智能引领的时代潮流中,我们不应该忽视任何一个人,眸思项目可以帮助1800万盲人重新找回生活的色彩,这不仅是技术的一次飞跃,也是AI在服务人类,改善我们生活方面道出的重要一步,”复且大学自然语言处理实验室青年副研究员桂韬表示:“这代表着我们实验室对于打造一个更加包容、更美好世界的坚定承诺。”

  “人工智能等一切科技文明都是人类集体智慧的结晶,我们应该在科技的发展中寻求更多的公正和平等。听见世界,我们对它的定位是公益项目,”智振董事长讲道:“与此同时,我们会加快眸思大模型的商业化落地进程,尽快惠及更多行业更多用户。我们计划在复旦大学中工互联联合实验室的框架内,加大科研经费的投入,首期计划投入1500万研发经费来加大基础大模型的研究。”

  各大电子商务平台及线上线下商超多个方面数据显示,今年“年货节”消费热度不减,消费者的“买买买”也透露出年货消费的新亮点。

  年糕的制作十分讲究,糯米粉、咸蛋黄、五花肉、花生油以及红糖水一样都不能少,每道工序都讲求细节和技巧。

  公路人员流动量预计超1.98亿人次,铁路客运量预计1296万人次,水路客运量预计62万人次,民航客运量预计216万人次。

  在浙江省温州市苍南岱岭畲族乡富源村文化广场,畲族刺绣浙江省非遗传承人兰瑞桃(右三)领着畲族姑娘们在为新春“村晚”表演节目——竹竿舞认真彩排。

  电子地图上涵盖“观展演赏村晚、看展览逛庙会、戏冰雪享演出、逛商圈品书香”等四大板块、400余项活动、场景,并提供检索、导览以及导航等服务。

上一篇:免费发布招聘网站
下一篇:Aqara Home App 30全新升级引领全屋智能30时代