1大数据将与形成良性循环文王劲大数据人工智能是近几年炙手可热的词汇但是你是否想过如果将两者结合起来会产生哪些意想不到的魔力呢在国内互联网市场独占搜索鳌头的百度公司正在尝试将两者结合成新的源动力来推动更多行业的快速发展在各种服务层出不穷行裂变为行的今天用户对服务的需求也迅速增长谁能够更好地满足他们显然就可以获得市场先机百度现在正努力地索引着真实世界通过对真实世界的索引把海量数据沉淀下来成为百度大数据的基础和重要组成部分百度通过大数据连接行打通线上和线下把线上和线下的数据融合起来产生核聚变进而迸发出新的能量让大数据成为行的商业新能源大数据重新定义资产谷歌执行董事长艾瑞克施密特曾经说过现在全球每两天所创造的数据量等于从人类文明至年间产生的数据量的总和互联网用户产生的数据包括语音图像和视频同时应用于物联网智能监控等领域的各种智能设备产生的数据更是漫无边际浩如烟海而海量数据的危机并不单纯是数据量的爆炸性增长它还牵涉到数据类2型的改变原来的数据都可以用二维表结构存储在数据库中如常用的软件所处理的数据称之为结构化数据但现在由于互联网多媒体应用的出现使诸如图片声音和视频等非结构化数据占到了很大比重而产生智慧的大数据往往是这些非结构化数据能否在短时间内把数据处理好决定了数据的价值这就需要新的技术突破使数据成为最有价值的资产数据的采集处理和应用的过程可以影响新的数据的产生从而形成反馈百度的反馈过程是一个正向反馈使系统更有效率百度大数据将与行业数据深度融合最终帮助行业内企业能够实现数据的闭环以为例通过目前相关的软件和技术百度可以对每一家门店的顾客信息进行深度挖掘帮助门店了解用户群体实施精准营销实现精细化运营而通过精细化运营可以让商家获得更多的客流和流水同时更多的客流和流水形成新的数据又被百度采集使正向循环越变越好越来越高效这是大数据发挥价值最为关键的地方百度大数据十是百度面向各行业开发大数据的平台包括数据融合洞察用户智能模型和匹配能力同时基于数据融合对群体用户进行立体画像描绘对线上线下用户行为分析对从多屏到跨屏的用户进行识别百度有决策模型推荐模型和绿色模型此外百度还开发了七个服务模块包括了行业洞察营销决策客群分析舆情监控店铺分析推荐引擎以及数据加油站百度数据已在零售旅游金融保险房地产等方面与商家深入合作3并取得了可喜的成果大数据助力零售业线下零售业面临电商竞争挑战压力非常大线下零售业如何利用互联网和新的技术赢得新的竞争优势已成为业界关心的话题线下零售业竞争最关键的核心是看谁能提供最好的用户综合体验谁的体验好谁就能赢得先机过去传统零售业与百度合作是希望通过百度的搜索和凤巢推广把线上的用户导流到线下使之也变成他们的客户这是单向导流而百度大数据可以对用户有更全面更深入地了解百度能够更好地了解这些用户的特性更好地识别用户的需求从而帮助线下企业为用户提供个性化营销方案或个性化服务不久前百度和北京朝阳大悦城在大数据方面展开了合作在充分保障用户隐私和安全的前提下把百度海量的线上数据和朝阳大悦城线下多年积累的数据结合在一起从而更好地洞悉用户的需求基于此类大数据百度和朝阳大悦城制订了一些更有针对性更精准的推广计划这种个性化的推广计划在很大程度上提升了朝阳大悦城的销售量其会员销售额提高了未购买品牌推荐转化率提升了五倍非活跃会员到场消费率提高了这只是双方合作的第一期仅是在推广服务方面进行的合作下一阶段双方还将通过百度糯米和朝阳大悦城的合作实现线上和线下服务的打通将大数据的威力再提高一个层次大数据助力互联网金融4互联网金融是现在热门的话题金融行业希望能够得到互联网公司的大数据也希望能够得到互联网公司的技术支持他们希望通过此类结合实现弯道超车能把中国的金融业提高到一个新层次把线上的海量数据和线下的金融数据结合在一起这将对基金选股风险控制信用评估有很大的帮助过去金融行业的分析师在做决策的时候一般从几十甚至几百个维度来作判断当有了互联网大数据之后分析师已能够非常准确地监控上万个纬度的数据而且不仅根据这上万个纬度的数据来做决策还能够实时监控数据的变化对这些变化知其然且还可知其所以然百度和国金证券已在大数据合作方面做了非常有意义的尝试百度将线上和线下的数据结合在一起通过对这些海量数据进行复杂计算挑选出多个有效的互联网因子并用这些因子建立数学模型助力选股和买卖决策基于上述大数据的合作国金证券金融产品的年化收益提升了一信息比率提升了最大回撤降低了有了大数据的强大技术支持分析师在股票与基金的选择上实现了更大的收益更好地控制了风险未来百度将和国金证券进行新的尝试共同建立一个新的量化基金希望通过这种创新和尝试帮助互联网金融企业找到更加可行的发展道路除了基金互联网金融另一个重要领域是保险业保险公司每降低一个百分点的风险就意味着比竞争对手有更大的优势百度已经与新华保险安盛天平在大数据方面开展了合作百度利用保险公司多年积累的线下数据圈定了一大批低赔付人群样本将这些人群的5线上线下数据融合并进行建模通过人工智能算法挖掘出这些人的特征百度在亿网民中通过海量计算将具有相同特征的人筛选出来从而发现更多的低赔付人群其准确率超过百度希望在这些尝试之后能够将这些技术进行广泛地推广人工智能重新定义效率最近几年计算机在语音图象和自然语音的理解上取得了很大突破由通过鼠标键盘与计算机交互的方式正在向通过与计算机对话图像识别等方式改变这些方式都在增加用户与互联网交互的频率这将大幅度提升人机交流的效率人工智能目前的学习能力较弱推理能力还无法与人脑相提并论但在此领域只要给予研发人员足够的时间和数据即可使人工智能的学习和推理能力超越人类几年前计算机战胜国际象棋大师的例子充分说明了这一点目前正是人工智能发展的良好时机一方面有海量数据提供模型学习数据越多特征就越多模型就能判断更精准另一方面深度学习技术也在快速地发展类似人脑神经一样去分析解释数据的技术已日渐成熟未来将出现类似人脑的智能人工智能的应用基础是大数据用户量越大所产生的数据就越多模型就愈加优化人工智能的智能性就越强将更符合人类的思维习惯例如用户在使用搜索引擎若无法获得所希望的信息时就需自己想办法换一种搜索方法但是通过人工智能技术机器人已经能够记住用户上一次与机器人对话的内容并且能够理解用户的意图随后根据用户的提问进行交互6百度的度秘就是通过大数据和人工智能理解人的语言实现多轮交互深度学习与大数据结合深度学习有多层次的结构能够从众多数据中将所需要的信息充分挖掘出来正是深度学习与大数据的结合形成了此次人工智能潮浪的巨大推动力百度投入巨大的资源用于百度大脑的深度学习平台的开发其可以支持百度各类海量数据并能够灵活地推出各种不同的深度学习模型的结构在网页搜索广告排序数据中心管理百度杀毒等方面已得到了广泛应用在百度看来机器的感知能力正在超越人类水平在语音方面人的识别错误率是而百度能将机器的识别错误率控制在以内在人脸识别方面百度的错误率只有低于人类识别的错误率无论是人脸识别还是图像文字识别技术百度都通过开放出来百度端到端的机器翻译能力使得百度对机器翻译质量有了极大地提升端到端的学习模式抛弃了人为的硬性分解和人为的特征构造通过一个完整的模型直接进行学习这样的模式已应用于语音识别图像识别机器翻译中并已取得成功百度提出将传统人工智能中不同的分支例如图像识别语言理解和语言生成等紧密结合在一起形成统一的神经元网络让机器人像儿童学习知识一样方便用户在未来可像教儿童学习一样地教机器人人工智能正在形成良性循环更多的数据更好的产品更强的7智能正在构建组合成一个闭环伴随人工智能使用者不断地增多机器将变得越来越聪明目前人工智还存在很多问题主要包括缺少小数据的学习能力即通过少量关键数据来实现深度学习不能通过自主探索环境来学习缺少通过与人交流进行学习的能力深度学习在语音合成中的技术创新百度在智能语音技术上的成果是声学模型即长短时记忆网络模型也就是模拟人脑该算法优势明显其一是长时间的轨迹记忆和瞬态记忆的统一其二是模拟人脑选择性遗忘其三是更精准的轨迹建模百度的技术创新就是混合多层结构来解决海量数据训练的效率和稳定性问题每个人的说话方式各有不同所带来的问题就是某些语句识别率不高传统技术很难解决这个问题百度为此推出了声学模型自适模式为每个人推出个性化模型将识别错误率下降到百度语音开放平台可为智能手机提供语音拍照驾驶助手语音助手等功能为电视厂商提供语音搜索和语音指令功能提供领先的车载解决方案优化车机设备的抗噪性能为智能设备厂商提供语音技术支持为智能手表提供语音输入和语音搜索功能8百度还将推出随机数字串声纹识别实现用户用声音进行注册账户登陆等功能其错误率已降低到千分之一个性化功能可合成用户希望得到的声音音频检索模块将提供音频内容互动平台本文根据王劲在百度世界大会上的演讲整理而成未经本人审阅