扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZDNet至顶网软件频道消息:面对体量庞大的大数据,如何在价值成本之间做好平衡和取舍?Teradata CTO Stephen Brobst在接受搜狐IT采访时称,不能一味的否定 “数据污水”,它们同样蕴含着价值,它们确切的说法应该是低价值密度数据,因此也应该保留,只是保留它们可以用低成本的存储服务器。
一个最简单的例子是,当人们通过搜索引擎检索时,会出现一些习惯性的错误。这些错误数据虽然表面上没有意义,但通过收集这些数据却可以发现用户的规律。
大数据已经成为很多公司绕不开的话题。以阿里巴巴为例。在阿里巴巴的平台上跑着大数据。阿里巴巴也认识到大数据的重要性,他们会设置多个角色来从事大数据的价值挖掘。比如,会设立业务分析人员来分析具体业务;会设立数字挖掘工程师来梳理数据里面的规律;会设立数据采集师来把有用的数据放在数据仓库里,并把没用的数据清除掉。
上文出现的“没用的数据”即被称为数据污水。因为它们通常被认为占据了大量存储空间,但对企业的价值很小。Stephen Brobst认为,将没用的数据统一归类到数据污水是不准确的,它们应该被称之为低价值密度的数据,你只是暂时没有发现它的价值。
实际上,确实有工具会对所有的数据进行收集。比如Hadoop,它把所有的数据都放在其中,其中包括好的数据,也包括那些暂时还没有发现价值的数据。这是因为Hadoop的运行成本低。Stephen Brobst建议,对于数据要区分对待,把价值不高的数据存储在一个低成本的环境当中,但是绝对不会把它丢弃,因为假以时日,它还是会有一定的价值会被挖掘出来。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者