胆囊息肉

注册

 

发新话题 回复该主题

AI模型离线大数据处理任务数据采集 [复制链接]

1#
北京哪家医院能治疗好白癜风 https://wapyyk.39.net/hospital/89ac7_knowledges.html

离线大数据处理任务指的是那些不需要实时响应用户的在线请求,并且不用实时返回处理结果的任务。

其实,大多数AI训练任务都是离线大数据处理任务。AI模型一般可以通过对线下批量数据的训练获得,然后再应用于线上的场景中。比如,要得到一个自动翻译系统的AI模型,我们就可以在线下训练大量文本数据。线下模型也需要更新,但像自动翻译系统这样的应用,每隔一段时间(甚至几个月或更长时间)再去更新模型也是完全没问题的。再比如,对一个电子商务系统里的全部或部分历史交易日志进行离线分析,我们可以建立一个比较好的商品推荐模型或智能定价模型,这类模型也许需要较频繁地更新,但还远未达到实时更新的程度,离线大数据处理任务完全可以满足其要求。

此外,搜索引擎的索引任务从传统意义上来说也是离线处理任务,除非我们特别强调索引的实时性。离线大数据处理的典型应用场景包括:(1)为搜索引擎系统管理的文档建立索引。(2)对全部或部分历史交易数据的离线分析。(3)对社交网站数据的智能舆情分析。(4)用于OCR的机器学习模型预训练。(5)对机器翻译模型的预训练。

典型的离线大数据在处理任务时所使用的技术栈。是处理器、操作系统/设备驱动、虚拟层、集群和任务协作管理,最后是处理离线大数据的应用层。基本可以分为数据采集,数据存储、组织和管理,数据处理,数据智能四个部分

其中,数据采集部分所需的技术更加多样性一些,搜索引擎常用的爬虫技术同时也是很多相关的大数据系统的初始数据源。另外,在今天这样的IoT(InternetofThings,物联网)时代里,越来越多的各类传感器其实也成了一种海量信息的收集渠道。比如,自动驾驶汽车上的诸多传感器,如激光雷达、毫米波雷达、摄像头等,它们采集的路面环境信息,以及汽车的每个控制系统采集的控制信息,都会被后续的AI训练模块所使用。

AI技术本身就能在数据采集阶段发挥巨大的价值。例如,能够智能地将非结构化数据变成结构化数据的AI技术——从传统的OCR、语音识别,到智能还原一份打印出来的报表中的结构化数据,再到智能分析并提取一篇文章中的要点信息,这些机器学习任务都可以帮助我们快速有效地收集信息。这样的智能信息获取技术甚至可以单独成为一个有用的工具,比如,微软的OfficeLens工具、“扫描全能王”APP、印象笔记的文档拍照功能等,这些工具把OCR和“白板/文档/名片”的扫描功能结合了起来,能帮助我们快速处理数字化信息内容。

分享 转发
TOP
发新话题 回复该主题