safiyaparvin โพสต์ 2023-11-1 13:57:30

什么是非结构化数据管理?

对于各种规模的公司来说,管理非结构化数据正成为一个日益重要的挑战。您看,企业存储的信息类型及其处理信息的方式在过去几十年中发生了巨大变化。 其中很大一部分原因是大数据、NoSQL 和云存储解决方案的同时兴起。 总之,这意味着对非结构化数据管理的需求比以往任何时候都更大。 今天,我们将深入探讨现实世界中非结构化数据的管理方式。 首先,我们将清楚地了解非结构化数据的含义,以及它与您可能熟悉的一些更传统的数据管理解决方案有何不同。 然后,我们将思考这带来的一些实际挑战、如何克服这些挑战,以及我们可以用来在常见工作流程中利用非结构化数据的一些技术和工具。 让我们直接开始吧。 什么是非结构化数据? 非结构化数据是指不以严格的表格格式存储的信息- 就像在 SQL 数据库或电子表格中一样。当然,任何时候我们用它不是什么来定义某事物——这仍然给我们留下了很大的歧义空间。 这是非结构化数据价值的一部分,从某种意义上说,我们可以处理几乎任何东西——包括文本数据、图像、其他媒体和文件、传感器输出、音频或任何其他类型的数据。

然而,“非结构化”这个词有点误导。 问题是非结构化数据总是有一个内部结构。不同之处在于,这不是由数据存储工具本身预先定义或严格强加的。相反,它的定义更加灵活——通常由人类用户或机器生成。 即使您在文本文件中记下一堆值,它也会有自己的结构 - 尽管它可能定义不明确并且易于更改。 那么,非结构化数据是如何结构化的呢? 我们可以考虑几种常见的存储类型。非结构化数据的示例包括: 对象存储。 键/值对。 物联网和分析数据。 富媒体。 地理空间数据 拉脱维亚手机号码列表自然语言处理(NLP) 模拟数据。 基于文档和文件的存储。 为了更好地理解这一点,让我们考虑一下非结构化数据与您更可能熟悉的数据管理工具有何不同。 结构化与非结构化数据管理 对于上下文,我们需要更清楚地了解结构化数据实际上是什么。正如我们之前提到的,结构化数据的特点是严格强加的(通常为表格)结构,该结构是由我们用于存储的平台强加的。 这可能是传统的关系 DBMS,甚至只是电子表格工具。 表格意味着我们的数据可以用表格来表示。换句话说,数据是围绕明确定义的列和行进行格式化的。

http://zh-cn.awbdirectory.com/wp-content/uploads/2023/10/download-1.png

列是我们可以存储有关特定条目的属性,而行是条目本身。 此结构在表中的各个数据对象之间没有变化。因此,每一行都存储了相同的字段 - 相同的规则一致地应用于所有这些。 因此,结构化数据为我们提供了高度的控制性、一致性和规律性。这也使得数据管理相对容易,因为我们可以以完全相同的方式处理每一行,而无需了解与其相关的特定值的更多信息。 非结构化数据的工作方式有很大不同。 说明这一点的最简单方法是考虑文档存储数据库。这是一种非结构化数据存储,它共享针对单个条目存储的属性的概念 - 但处理方式略有不同。 并非每个单独的数据对象都共享相同的属性,而是每个数据对象都可以拥有针对其存储的独特数据组合。 因此,我们牺牲了一些我们在结构化替代方案中所享有的固有一致性和易管理性。我们也无法轻松地以表格格式表示此类数据 - 因为每一行可能具有完全不同的列。 非结构化数据管理 (茁壮成长之路 ) 让我们考虑一个例子。 如果我们想用结构化数据库代表我们的客户,我们将存储与我们的客户完全相同的信息,即使其中一些字段具有空值。

หน้า: [1]
ดูในรูปแบบกติ: 什么是非结构化数据管理?