关于hadoop：社交媒体数据如何非结构化数据？

How is social media data unstructured data?

我最近开始阅读大数据，以及如何使用诸如 hadoop 或 BigInsights 之类的工具来管理结构化和非结构化数据。

社交媒体分析可以在 BigInsights 上完成，它采用非结构化数据并相应地对其进行分析/结构化。

这让我想知道，社交媒体数据是如何非结构化的？例如，您可以使用 Twitter REST API 调用您在推文中收到的信息，并以结构化 JSON 格式返回给您。

那么社交媒体数据不是已经结构化了吗？如果是这样，您为什么需要一个主要管理非结构化数据的平台？

有些人也会区分"半结构化"。

但重点是查询数据的能力。是的，推文等通常有一些结构。但对分析没有帮助。

给定一个丑陋的 SQL 模式，你确实可以运行像

这样的查询

1	SELECT AVG(TweetID) FROM Twitter;

但该功能在实践中毫无用处。这可能就是为什么最好将数据视为非结构化数据的原因：您不会从将其压缩到关系模式中受益。

不过，请注意使用大数据的流行词宾果游戏。通常"支持非结构化数据"实际上意味着"不从数据中的结构中受益(通过使用索引)但每次都重新读取数据"

这不仅仅是获取推文。数据的真正价值在于了解正在发布的内容。以 Facebook 为例，我们可以在其中评论任何图片或视频。我们需要一个平台来了解所有关于视频的评论是正面的，或者有多少评论是雪橇，或者有多少评论是关于它的真实反馈。有多少人为此提供了更好的建议。您还需要知道视频被分享和喜欢的次数。同样，所有共享的人是谁，谁不喜欢它或喜欢它。可以收集到这么多种类的数据，因此这些都称为非结构化数据。