没有找到合适的产品?
联系客服协助选型:023-68661681
提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
转帖|实施案例|编辑:我只采一朵|2017-07-06 14:49:44.000|阅读 119 次
概述:如果大家对阿里巴巴的新闻比较关注,最近可能会频繁听到阿里巴巴谈到“五新”这个词,“五新”中的其中一个概念是新能源。其实新能源就是大数据本身。
# 界面/图表报表/文档/IDE等千款热门软控件火热销售中 >>
作者:阿里数据
如果大家对阿里巴巴的新闻比较关注,最近可能会频繁听到阿里巴巴谈到“五新”这个词,“五新”中的其中一个概念是新能源。其实新能源就是大数据本身。技术、数据和算法三个方面结合在一起,才可以把数据真正用起来。
大家都知道,Google的数据量是很大的,但是它的数据源本身其实比较单一。以Google search,Google map等为主导,并没有太多和商业有直接相关的数据。
再来看看,Facebook。它更多的是社交行为的数据,缺少出行数据、浏览器数据、或者类似优酷的视听数据。
但是,对于阿里来说,上述的这些数据我们都有。我们面临的极大挑战是:怎么样有效的把这些全域数据融合在一起。
首先我们需要把数据有效地收集起来。我们有一个大数据体系“OneData”(有关OneData的内容,回复关键词“OneData”即可获得)。
把数据有效地收集、存储起来之后,接着要做的就是怎么通过算法把这些数据打通,并且真正有效、智能地把这些数据提炼出来。
这是阿里的一个生态体系图。最底层是阿里巴巴的阿里云,这是我们的一个计算存储框架。上面是阿里妈妈,阿里妈妈是负责整个阿里巴巴计算广告的一个部门,再上面是菜鸟、支付宝和蚂蚁金服。然后是与商业相关的,像淘宝网、天猫、聚划算等等,或者是跟文娱相关的,优酷土豆,还有像阿里旅行,口碑之类的业态。
阿里巴巴数据中台要做的事情是什么呢?
举一个最简单的例子,之前有一个比较火的电视剧《三生三世》。《三生三世》火热上映的时候,与之相关的商品元素,比如饮食或者穿戴之类的商品,也会瞬间在淘宝网上火爆起来。
那么如果我提前就知道某一类人群是《三生三世》的粉丝,我就可以在淘宝网上做非常高效的、准确的定位推广。
阿里数据要做的是:把数据真正打通,深度挖掘数据的价值,为业务创新应用提供数据决策基础和依据。
在真正进入算法之前,我们一定要对数据进行非常认真、仔细地进行清洗过程。俗话说,如果你的数据不清洗,其实就是“learn trash from trash”。所以数据本身一定要做得非常干净。
来看一下架构图。第一个数据层中有各种各样的数据,比如有消费数据,有广告数据,出行数据等等
把这些数据层经过有效结合在一起之后,接下来得到这种特征层的提取。
在阿里数据内部,大概有这样几个比较抽象的维度:像账号设立的静态特征,电商行为的特征,或者设备的特征等等。
在特征层之上,我们会有模型层,这里面有基于业务规则的模型,也有其他的例如异常检测,有监督或者无监督的学习,然后特征的联合校验等模型。
因为我们的数据源非常多,因此我们也可以通过部分的数据源验证另外一个数据源,看数据的增长或者留存是否处于一个正常范围。
另外还有一些比较好的方法,比如基于Graph的一些算法,实时的反作弊算法等等。在算法层之上,就是评估层。在评估层内,我们可以判断留下来的数据是否是真正有效的数据。
在上述这些数据层的上面,会有一个应用层,也同时会抽象出一些产品来帮助内部员工或者外部商家进行使用。
所以,整个数据中台实际上是从底到上对数据进行清洗的一个架构。
当我们有了非常干净的数据之后,我们要做的就是把数据打通。我刚才说了,阿里生态体系会呈现出几百个不同的数据源,这些数据源本身的数据量非常大,收集模式也各不相同。
那么我们是如何进行数据之间的融通的呢?
这是我们关于怎么把数据打通的一个技术架构。
大家可以看到,整个技术体系都是,先把数据接进来,再通过一些机器学习或者深度学习的办法(像word2vec,node2vec,TFIDF,归一化等)处理特征层,之后映射到一些比较抽象的高纬度Level(比方说像用户的身份信息,网络的环境相似度,文本的相似度,APP相似度等等)。
抽象完这些特征层之后,我们究竟怎样去判断。
这期间的方法大致可以分为四种有效的办法:
此外,还有一些强召回,就是比如说用户有相同的账号登陆不同的地方。这些是所谓的强召回,它可以非常准确地被判断出来。弱召回就是基于算法特征层的这些模型,有效地判断出所有信息是否真正属于同一个自然人。
本文转载自:36大数据
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@evget.com
非营利性人寿保险公司WoodmenLife通过Parasoft自动化测试解决方案,将回归测试时间从200小时缩短至40小时,效率提升212%。借助服务虚拟化和自动化引擎,团队成功从手动测试转型为自动化测试,缺陷发现率提升50%,交付故障率下降40%。此次变革不仅优化了软件质量,还为保险行业数字化转型树立了标杆。
本期慧都将带来来自建筑领域的真实客户案例,看看 DHTMLX 调度组件和甘特图组件,如何助力建筑调度系统优化人力安排、提升执行效率。
随着工业领域数字化进程的持续加快,Web 技术在实现实时监控、数据可视化与控制系统等方面正扮演着越来越核心的角色。来自智利的科技企业 Wise Data Global 借 DHTMLX Suite JavaScript UI 控件库,为遥测、远程监控与工业物联网(IIoT)场景提供了稳定高效的 Web 端平台支持。
在当今教育数字化加速发展的背景下,高校对在线协作办公工具的需求日益增长。作为瑞士领先的高等学府之一,苏黎世大学(University of Zurich)在其学习管理平台 OLAT 中成功集成了 ONLYOFFICE Docs,极大地提升了教学与学习过程中的文档协作效率与用户体验。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@evget.com
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢
慧都科技 版权所有 Copyright 2003-
2025 渝ICP备12000582号-13 渝公网安备
50010702500608号