有人说数据就是新的石油。也有人说数据是新的黄金。哪一个比喻更恰当一些呢,哲学家和经济学家可能又要吵一阵,但毫无疑问,组织和分析数据对于任何希望实现数据驱动决策的企业来说都是一项重要工作。
因此,坚实的数据管理策略就成了关键。数据管理包括数据治理、数据运营、数据仓库、数据工程、数据分析、数据科学等等,做好了数据管理就可以为每个行业的企业提供竞争优势。
所幸目前数据管理的许多方面都得到了很好地理解,这些理解也是建立在几十年来不断发展的合理原则之上。例如,有些可能不容易用起来或简单易懂,但由于实验室科学家和数学家做了大量的工作,业界的公司现在有着一系列的逻辑框架,可用于分析数据及得出结论。而且更重要的是,我们还可以利用统计模型勾画出误差范围,从而框定出我们分析的极限。
但尽管数据科学的研究以及推动数据科学的其他学科所能产生的各种好处,有时候我们还是不知道如何着手。企业经常会遭遇这个领域的极限。有些相关悖论涉及到要对这么多的数据进行收集和组织会遇到实际操作的挑战。也有些属于哲学范畴,非常考验我们对抽象事物的推理能力。另外,收集如此多的数据还涉及到隐私问题。
下列难题令众多企业面临着数据管理的挑战。
1. 分析非结构化数据有困难
许多储存在企业档案中的数据根本就没有什么结构。笔者的一个朋友特别想利用人工智能搜索他的银行呼叫中心工作人员所做的文字记录。记录的句子可能包含了有助于改善银行贷款和服务的洞察力。也许。但这些笔记是由数百名不同的人记下的,他们对写下某个电话的内容有不同的想法。此外,每个人的写作风格和能力也不同。有些人根本就没写什么。有些人却写了太多的信息。文本本身就并没有太多的结构,那么,由数百或数千名员工在数十年间写下的一堆文本,即便有点什么结构的话可能就更加微弱了。
2. 即便结构化的数据往往也是非结构化的
好的科学家和数据库管理员在构建数据库时会指定每个字段的类型和结构。他们有时候还会以更多的结构为名,将一个给定字段的值限制在某些范围内的整数或预定义的选择。但填表格的人总有办法方法制造各种问题。例如,空的字段。或是填表的人认为某个问题不适用时会填上一横或首字母“n.a.”(英文“不适用”的缩写)。有些人甚至在填同一表格时拼自己的姓名时,不同的时间(例如去年和今年、昨天和今天)甚至上一行和下一行拼法都不同。好的开发人员可以通过输入验证避免这些问题中的一部分。好的数据科学家也可以通过清理来减少一些不确定性。但是即使是最结构化的表格也有出问题的条目,令人抓狂,这些有毛病的条目会引入未知因素,甚至导致分析错误。
3. 数据模式要么太严格要么太松散
无论数据团队如何努力定下模式约束,模式在定义各种数据字段中的值时要么太严格,要么太松散。如果数据团队设的约束条件太严格,用户会抱怨在可接受值的狭窄列表中找不到他们的答案。如果模式过于宽松,用户就可以添加奇怪的值,因此就没有什么一致性。要把模式调得恰到好处几乎不可能。
4. 数据法规非常严格
涉及隐私和数据保护的法律现在很严,而且只会越来越严。要在GDPR、HIPPA等法规和其他十几项法规下汇集数据可能会非常困难,而且,数据放在那里就更加危险,不定什么时候就会被黑客攻陷。在许多情况下,花钱请律师比花钱请程序员或数据科学家更加容易。这些都是令人头痛的问题,有些公司手里的数据都是只要能脱手就弃掉了,其原因就在此。
5. 数据清理成本巨大
许多数据科学家的切身经历就是,收集数据、将数据处理成一致的形式以及处理无尽的漏洞或错误涵括了90%的工作。手里握有数据的人总是会说,“都在CSV中,随时可以使用”。但他们不会提那些空字段或错误的描述。数据科学项目花在清理数据的时间比启动R或Python程序实际执行统计分析的时间往往可以多10倍以上。
6. 用户越来越怀疑你的数据实践
终端用户和客户对公司的数据管理行为的疑心越来越重,而一些人工智能算法及其使用则进一步放大了这种恐惧,许多人对于记录他们一举一动的数据最后用来干什么感到非常不安。随之而来的是更多的监管,经常导致一些公司甚至善意的数据科学家遭受公共关系的打击。不仅如此,也有人故意用假的数值或错误的答案干扰数据收集。有时候一半的工作是与恶意的合作伙伴和客户打交道。
7. 整合外部数据可以获得回报,也可以带来灾难
不管公司对其收集的数据是否有所有权,IT部门和数据科学家对数据至少有控制权。但越来越多急于求成的公司正在想办法将他们自己的信息与第三方数据以及可以在互联网上获取的大量个性化信息整合起来。有些工具公开宣称可以吸纳每一位客户的数据以及为每一次购买建立个性化的档案资料。是的,他们用的字眼都与间谍机构追捕恐怖分子时用的字眼一样的,他们就是这样追踪你的快餐购买和信用评分记录。人们感到焦虑和恐慌有什么奇怪的呢?
8. 监管机构大力治理数据的使用
没有人知道聪明的数据分析在什么时候会踩过线,但一旦踩过了线,监管机构就会出现。最近有一个出现在加拿大的例子,政府逮住一些甜甜圈商店在追踪那些也在竞争对手那里购物的顾客。最近的一份新闻稿称,“调查发现,Tim Hortons与一家美国第三方位置服务供应商的合同中包含了非常模糊和宽松的语言,进而允许该公司为自己的目的出售‘去识别化’的位置数据。”用于什么呢?是用于卖更多的甜甜圈吗?这个例子说明监管机构正越来越多地关注任何涉及个人信息的事情。
9. 你的数据模式可能没什么用处
我们想象的是出色的算法可能会让一切变得更有效率,更有利可图。而有时这样的算法实际上也是可能的,但代价也可能太高。例如,消费者(甚至公司)越来越质疑那些基于精心设计的数据管理方案的目标营销有没有价值。有些人说自己经常看到已经购买了的东西的广告,原因是广告追踪器没有弄清楚该消费者已经不在市场上了。同样的命运往往也在等待其他聪明的计划。有时候,严格的数据分析会找出表现最差的工厂,但这并不重要,因为该公司和那栋大楼签了30年的租约。公司需要做好准备,所有那些天才的数据科学可能会产生一个不被接受的答案,这种可能是存在的。
10. 数据决策最终往往只是直觉判断
数字可以提供各种精度,但人类如何解释数字往往很重要。在所有的数据分析和人工智能魔法之后,大多数算法都需要对某些数值是否超过或低于某个阈值作出决定。有时科学家想要一个低于0.05的P值。有时警察希望对超过限速20%的汽车开出罚单。这些阈值往往只是任意的数值。对于所有可以应用于数据的科学和数学,许多“数据驱动”的过程比我们愿意相信的有更多的灰色地带,尽管一个公司可能在数据管理实践中投入了资源,但决策仍然取决于直觉。
11. 数据存储成本正在爆炸性增长
是的,磁盘驱动器容量越来越大,每兆字节的价格不断下降,但程序员收集数据的速度比价格下降的速度更快。物联网(IoT)的设备在不断地上传数据,用户期望永远都可以浏览这些数据的丰富集合。与此同时,合规官员和监管机构不断要求提供越来越多的数据,以备将来审计之用。有没有人去看其中的数据是一回事,但我们一天就只有这么多时间。真正被再次访问的数据比例不断下降,越来越低。而存储不断增加数据的价格却在不断上涨。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。