根据Gartner公司的数据,到2020年将会有200亿台网络连接设备投入使用,这些设备每年将产生超过500 ZB(zettabytes)数据,也就是需要5000亿个1TB硬盘才能放下,随着科技的进步,预计这一数字将继续大幅增长。对于已经进入物联网行业的70%的组织来讲,这些数据代表了其独一无二的竞争优势。这些数据可以帮助企业获得有价值的信息用于开发创新的AI应用程序,这对于企业来说是一个巨大的机会。
事实证明,物联网数据令数据科学家、机器学习工程师和企业领导者一样兴奋。从医疗保健和农业到教育和交通,蓬勃发展的物联网领域和其他领域一样是多元化的,涵盖了新信息的发现和决策控制。物联网数据科学打开了创造新数据产品的大门。本文将讨论一些关于物联网数据科学的具体特征。
目前,物联网成为了新数据的重要来源之一,物联网数据或许可以被看做大数据的缩影。如果我们只看一台设备产生的数据,那么我们只需要处理很少的数据就可以了(即使这些数据也一直在变化)。但无数的分布式设备会产生连续的数据流,所以物联网会产生大量的数据。物联网设备可以收集从音频到传感器数据等各种类型的信息,并全面覆盖整体数据格式的多样化。
但是物联网数据也存在一些独一无二的特性,使其开发具有挑战性。由于采集和传输过程中出现错误往往会产生噪音,这使得构建、清理和验收数据的过程成为机器学习算法发挥的关键步骤。本质上来讲,物联网数据也是高度可变的,这是因为跨各种数据收集组件的数据流中存在巨大的不一致性,而且存在时间模式。不仅如此,数据本身的价值在很大程度上取决于底层机制,数据捕获的频率以及处理方式。即使来自特定设备的数据被认为是值得信赖的,我们仍需要考虑到即使在相似条件下不同设备的行为也可能不同。因此在收集培训数据时捕捉所有可能的情景在实践中是不可行的。
然而,物联网数据的一个最显著的特征在于其粗糙性:因为物联网设备通过各种复杂的传感器收集数据,所产生的数据通常非常原始。这意味着,在提取业务价值并构建强大的AI应用程序之前,主要的数据处理是必要的。实际上,将有意义的信号从噪声中分离出来并将这些非结构化数据流转化为有用的结构化数据,是构建智能物联网应用程序最重要的一步。
大量物联网应用需要使用监督机器学习,这是一类机器学习算法,需要在模型可以被训练之前标记数据。由于手动标记大型数据集是一项耗时、容易出错且价格昂贵的任务,因此机器学习专业人员通常首先转向标记为开源的数据集,或者从少量数据开始标记。然而,物联网数据的难点来自其特殊性:因为这些数据通常是独一无二的,所以不能保证现有的开源数据集随着可获得,并且工程师们有必要标记他们自己的数据。这正是高品质,适应性强的众包标签平台所能提供的帮助。
但是,归因于物联网数据的可变性,标记一个小的随机样本可能不够。考虑到这一点,这些是在算法训练中利用标记和未标记数据的半督查学习策略的完美环境。特别是主动学习是一种非常合适的方法,允许机器学习科学家获得类似的算法精确度,其中算法被允许向群众查询智能选择的训练实例的子集的标签,是标签成本的一小部分。
在机器学习方面,物联网发展的一个非常有趣的方面是群体感知的出现。群体感知包括两种形式:自愿的,当用户自愿提供信息时,以及在没有明确干预用户的情况下自动收集数据。这是物联网数据不仅可以促进物联网应用程序的开发或改进的一种方式,而且还可以用作其他非物联网应用程序的输入。
物联网实际上允许以前所未有的方式收集非常独特的数据集。由于每个设备生成的数据通常都是人为的,因此用户可以标记或验证它。收集最接近用户位置的数据也变得可能:这正是Google要求用户拍摄他们正在用餐的餐厅的照片,或者回答关于便利设施的一些问题的目的。这是第一次可以以大数据规模收集人工生成的数据。
人工智能取得令人瞩目的进步的主要因素之一是出现了更好的技术,如GPU:可以实现更快速的数据处理。物联网的机器学习带来了一个有趣的难题:最好的模型需要接受大量数据的训练,而大多数物联网设备仍然受限于存储空间和处理能力。因此,安全高效地将大量数据从物联网设备传送到服务器或云端,并提高数据输出的能力是AI应用程序开发的关键。
在云计算时代,一种较好的解决方案是将数据导出到开发模型的云中,并在模型能够投入使用后将模型导回到设备上。这非常具有吸引力,特别是因为预计到2021年所有生成的数据中有94%将在云中处理,这意味着可以利用其他数据源,无论是历史数据还是源于其他物联网设备的数据。然而,将复杂模型存储回内存受限的设备本身可能是一个挑战,因为具有大量参数的复杂模型(如深度学习模型)本身通常非常大。另一方面,包括从设备向云上的模型发送数据以进行推理步骤的解决方案也可能不是最优方案,尤其是在需要延迟非常低的情况下进行。
另一个挑战是物联网设备可能无法连续连接到云,因此可能需要一些本地参考数据用于脱机处理,并具有独立运行的功能。这是边缘计算架构变得有趣的地方,因为它使数据能够在边缘设备级别进行初始处理。在安全性方面,这种方法特别有吸引力;而且这种方法非常有利,因为这样的边缘设备能够过滤数据,减少噪声并且当场改善数据质量。
不出所料,人工智能工程师一直试图获得两全其美的方案,并最终开发了雾计算,这是一个去中心化的计算基础设施。在这种方法中,数据,计算能力,存储和应用程序以最合理的方式在设备和云之间分布,最终将它们更紧密地结合在一起来发挥它们各自的优势。
事实证明,物联网设备能够生成大数据,但,使用外部历史数据集开发物联网智能应用程序并不罕见。这意味着可以依靠多个物联网设备(通常是多个用户的相同类型的设备)或完全不同的数据源生成的数据。应用程序越具体和独特,现有数据集可供使用的可能性就越小,例如,当设备捕获Imagenet中特定类型的图像而与开放源图像数据集没有相似性时。但物联网应用程序实际上是几种现有的现成模型的巧妙结合,这使得转换学习很好地适应了物联网背景下智能应用的发展。
转移学习范式包括在数据集上训练模型(通常是黄金标准),并用它来推断另一个数据集。或者,可以将在生成此模型期间计算的参数用作在实际数据集上训练模型时的起点,而不是将模型初始化为随机值。在这种情况下,我们将原始模型称为“预先训练好的”模型,我们对应用程序特定的数据进行微调。这种方法可以将训练阶段加速几个数量级。 使用相同的范例,可以训练一个通用模型,最终用户可以直接使用这些数据。
由于互联网连接设备技术通过提供物理和网络世界之间的连接来扩展当前的互联网,因此它生成的数据是通用的,但也是导致严重隐私问题的原因。事实上,参与物联网的大约50%的组织认为安全性是物联网部署的最大障碍。考虑到大约三分之二的物联网设备处于消费领域,以及一些共享数据的私密性,也就不难理解安全性问题为什么会是一个难题了。 这些顾虑以及与云频繁数据传输相关的预期风险,解释了用户为何提出保护其数据的要求。
然而,当这些物联网应用程序由“联合”数据(即由多个用户生成的数据)驱动时,事情会变得更加隐伏:不仅可能直接泄露用户数据,当恶意代理对机器学习算法的输出进行逆向工程以推断私人信息时,就可能间接暴露用户数据,。因此,很有必要在发展物联网的同时建立起完整的数据保护法。
由于物联网设备使互联网更贴近用户并触及人类生活的各个方面,因此它们通常允许收集相关数据。物联网数据描述了用户生活的方方面面,并使其比以往更容易理解用户的需求,愿望,历史和偏好。这使得物联网数据成为完善的数据,可以根据用户的个性创建个性化的应用程序。
而且由于物联网通过收集高度个性化的数据以及提供高度个性化的应用和服务来亲密接触我们的生活,因此物联网机器学习有真正成为以人为本的机器学习的资格。