关于hadoop:社交媒体数据如何非结构化数据?

How is social media data unstructured data?

我最近开始阅读大数据,以及如何使用诸如 hadoop 或 BigInsights 之类的工具来管理结构化和非结构化数据。

社交媒体分析可以在 BigInsights 上完成,它采用非结构化数据并相应地对其进行分析/结构化。

这让我想知道,社交媒体数据是如何非结构化的?例如,您可以使用 Twitter REST API 调用您在推文中收到的信息,并以结构化 JSON 格式返回给您。

那么社交媒体数据不是已经结构化了吗?如果是这样,您为什么需要一个主要管理非结构化数据的平台?


有些人也会区分"半结构化"。

但重点是查询数据的能力。是的,推文等通常有一些结构。但对分析没有帮助。

给定一个丑陋的 SQL 模式,你确实可以运行像

这样的查询

1
 SELECT AVG(TweetID) FROM Twitter;

但该功能在实践中毫无用处。这可能就是为什么最好将数据视为非结构化数据的原因:您不会从将其压缩到关系模式中受益。

不过,请注意使用大数据的流行词宾果游戏。通常"支持非结构化数据"实际上意味着"不从数据中的结构中受益(通过使用索引)但每次都重新读取数据"


这不仅仅是获取推文。数据的真正价值在于了解正在发布的内容。以 Facebook 为例,我们可以在其中评论任何图片或视频。我们需要一个平台来了解所有关于视频的评论是正面的,或者有多少评论是雪橇,或者有多少评论是关于它的真实反馈。有多少人为此提供了更好的建议。您还需要知道视频被分享和喜欢的次数。同样,所有共享的人是谁,谁不喜欢它或喜欢它。可以收集到这么多种类的数据,因此这些都称为非结构化数据。