栗子厂家
免费服务热线

Free service

hotline

010-00000000
栗子厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

百度实现平台间数据自动化循环机构名称识别效果大增

发布时间:2020-06-28 11:34:13 阅读: 来源:栗子厂家

“我想看爸爸去哪儿”,随着轻声诉说,百度语音助手自动打开视频《爸爸去哪儿》的播放菜单,节目导航立即呈现在用户眼前,用户可以随心所欲地选择自己喜欢的节目;在互联网中搜索资料时,尤其是一些文献类的资料,经常会在搜索结果中看到关于该文献中心内容的介绍,这就是我们常说的自动文摘;使用输入法时,多个文字连续输入,在前面两个选项也能较为准确的显示出我们需要的文字,无需手动选择……这些情景的大家肯定都遇到过,但是你知道这些成果的展现是如何实现的吗?百度一下,你就知道答案了。

度娘说,上述功能的实现有个共同点,就是它们均基于自然语言处理技术。自然语言处理,通俗地说,就是将我们人类的语言转换成一种能够被计算机理解的语言,它对实现人工智能有着重要意义。目前,在互联网领域,自然语言处理被视为改善用户体验先行的基础,虽说它处于基础底层位置,但是九层之台,起于累土,它的重要性不言而喻,从百度、腾讯、阿里巴巴等众多企业对其的重视就可领略一二。

在提升自然语言处理技术的过程中,百度始终走在业界的前端,希望用先进的技术为网民带来更智能的美好生活。自2011年百度推出开放研究计划后,百度每年都会发布一个技术主题,围绕技术主题接收来自学术界的解决方案,并择优资助优秀的研究方案开展课题研究,同时接纳老师派遣的学生到百度技术部门实习并开展研究工作,研究成果可以直接为百度解决现实技术问题或者做重大的前沿技术探索。

今年,百度自然语言处理部与哈尔滨工业大学携手,共同进行了一项名为“人本计算平台研究项目”,意在探索多个平台间数据自动循环的价值。据了解,机器学习平台、数据中心平台、众测平台均为公司内已有的技术平台。其中,机器学习平台提供各类机器学习模型,实现模型训练、测试、评估等功能;众测平台为众测用户提供众测任务,实现数据标注;数据中心平台实现数据的存储管理与对外提供数据服务,但是三个平台间无法互相融通。为实现三个平台的无缝结合,百度现针对机构名称识别优化这一项目,实现了三个平台间数据的自动迭代。

听起来很复杂的项目,在这些项目研究者的眼中却很明确。据该项目的实习生,来自哈尔滨工业大学研究生二年级的学生姚佳介绍,“如果用户在进行检索时,输入一个机构的名称"北京大学",在搜索机构里是可以查到相关信息的,因为这是一个机器识别的机构名,但是,如果搜索的是简称"北大",就有可能无法查到想要的信息,因为计算机可能无法将"北大"识别成一个机构名,我的工作首先是将这些query词汇抽出,筛选过后交给众测平台进行用户标注,再基于得出的结果进行优化,这样就可以做到用户在搜索相近的意思的机构词时,都能搜到相应的结果。”

日前,该项目已经完全结束,项目成果令人惊喜。“我们在这个项目中完成了众测平台+数据中心+机器学习平台的一体化打通建设,对于机构名称识别效果有了质的提升:F值在query上提升32个百分点。”百度自然语言处理部万伟,作为“人本计算平台研究项目”百度方面的负责人,对此结果表示肯定。他说,“这个项目的初衷是尝试性的探索三大平台间数据自动化循环的流程,让我们的工作更加简洁有效,所以我们对两位实习生—姚佳及和他来自同一个实验室的张宇,有着明确的工作要求,他们在此期间的表现非常优秀,到达了我们的预期,这是校企合作间比较理想的模式,深化了百度与学术界在技术领域的合作。”

基于该项目的研究成果,百度在自然语言处理方面对机构名称的识别技术得到大幅提升,万伟表示,今后百度自然语言处理部对该研究成果将会继续深化,例如在百度众测平台上,可以根据用户的行为和标签,为其推荐更适合他们的任务,从而让用户享受到更多的测试乐趣。

Chrome浏览器下载

Google浏览器下载

谷歌浏览器

Google Chrome下载