笔记列表:
- 大数据分析概述
- 大数据分析生命周期
- 大数据分析方法
- 核心可交付成果
- 关键利益相关者
- 数据分析员
- 数据科学家
- 问题定义
- 数据收集
- 清洁的数据
- 汇总数据
- 数据探索
- 数据可视化
- r简介
- sql简介
- 图表
- 数据分析工具
- 统计方法
- 机器学习数据分析
- 朴素贝叶斯分类器
- k表示聚类
- 关联规则
- 决策树
- 逻辑回归
- 时间序列分析
- 文本分析
- 在线学习
- 大数据分析快速指南
- 大数据分析有用资源
- 大数据分析讨论
- 卡桑德拉简介
- 卡桑德拉建筑
- 卡桑德拉数据模型
- 卡桑德拉装置
- 卡桑德拉引用的api
- cqlsh沙箱
- cassandra shell命令
- cassandra创建键空间
- Cassandra alter键空间
- cassandra drop键空间
- cassandra创建表
- 卡桑德拉改变表
- 卡桑德拉升降台
- cassandra截断表
- cassandra创建索引
- 卡桑德拉下降指数
- 卡桑德拉批次
- cassandra创建数据
- 卡桑德拉更新数据
- 卡桑德拉读取数据
- cassandra删除数据
- cassandra cql数据类型
- Cassandra CQL系列
- cassandra cql用户定义的数据类型
- 卡桑德拉快速指南
- 卡桑德拉资源
- 卡桑德拉讨论
大数据分析-数据收集
数据收集在大数据周期中扮演着最重要的角色。互联网为各种主题提供了几乎无限的数据源。该领域的重要性取决于业务类型,但是传统行业可以获取多种外部数据源,并将其与交易数据相结合。
例如,假设我们要构建一个推荐餐厅的系统。第一步是收集数据,在这种情况下,是来自不同网站的餐厅评论,并将其存储在数据库中。由于我们对原始文本感兴趣,并将其用于分析,因此用于存储模型开发数据的位置并不重要。这听起来可能与大数据主要技术相矛盾,但是为了实现大数据应用程序,我们只需要使其实时工作即可。
Twitter的迷你项目
定义问题后,接下来的阶段是收集数据。以下微型项目的想法是致力于从Web上收集数据并将其构造为在机器学习模型中使用。我们将使用R编程语言从twitter rest API中收集一些推文。
首先创建一个Twitter帐户,然后按照twitteR包插图中的说明创建一个Twitter开发者帐户。这是这些说明的摘要-
-
填写基本信息后,转到“设置”选项卡,然后选择“读取,写入和访问直接消息”。
-
完成此操作后,请确保单击“保存”按钮。
-
在“详细信息”标签中,记下您的消费者密钥和消费者秘密
-
在您的R会话中,您将使用API密钥和API机密值
-
最后运行以下脚本。这将从其在github上的存储库安装twitteR软件包。
install.packages(c("devtools", "rjson", "bit64", "httr")) # Make sure to restart your R session at this point library(devtools) install_github("geoffjentry/twitteR")
我们有兴趣获取包含字符串“ big mac”的数据,并找出与此相关的主题。为此,第一步是从Twitter收集数据。以下是我们的R脚本,用于从Twitter收集所需的数据。此代码也可在bda / part1 / collect_data / collect_data_twitter.R文件中找到。
rm(list = ls(all = TRUE)); gc() # Clears the global environment library(twitteR) Sys.setlocale(category = "LC_ALL", locale = "C") ### Replace the xxx’s with the values you got from the previous instructions # consumer_key = "xxxxxxxxxxxxxxxxxxxx" # consumer_secret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # access_token = "xxxxxxxxxx-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # access_token_secret= "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # Connect to twitter rest API setup_twitter_oauth(consumer_key, consumer_secret, access_token, access_token_secret) # Get tweets related to big mac tweets <- searchTwitter(’big mac’, n = 200, lang = ’en’) df <- twListToDF(tweets) # Take a look at the data head(df) # Check which device is most used sources <- sapply(tweets, function(x) x$getStatusSource()) sources <- gsub("</a>", "", sources) sources <- strsplit(sources, ">") sources <- sapply(sources, function(x) ifelse(length(x) > 1, x[2], x[1])) source_table = table(sources) source_table = source_table[source_table > 1] freq = source_table[order(source_table, decreasing = T)] as.data.frame(freq) # Frequency # Twitter for iPhone 71 # Twitter for Android 29 # Twitter Web Client 25 # recognia 20
其他教程链接:
- 大数据分析概述
- 大数据分析生命周期
- 大数据分析方法
- 核心可交付成果
- 关键利益相关者
- 数据分析员
- 数据科学家
- 问题定义
- 数据收集
- 清洁的数据
- 汇总数据
- 数据探索
- 数据可视化
- r简介
- sql简介
- 图表
- 数据分析工具
- 统计方法
- 机器学习数据分析
- 朴素贝叶斯分类器
- k表示聚类
- 关联规则
- 决策树
- 逻辑回归
- 时间序列分析
- 文本分析
- 在线学习
- 大数据分析快速指南
- 大数据分析有用资源
- 大数据分析讨论
- 卡桑德拉简介
- 卡桑德拉建筑
- 卡桑德拉数据模型
- 卡桑德拉装置
- 卡桑德拉引用的api
- cqlsh沙箱
- cassandra shell命令
- cassandra创建键空间
- Cassandra alter键空间
- cassandra drop键空间
- cassandra创建表
- 卡桑德拉改变表
- 卡桑德拉升降台
- cassandra截断表
- cassandra创建索引
- 卡桑德拉下降指数
- 卡桑德拉批次
- cassandra创建数据
- 卡桑德拉更新数据
- 卡桑德拉读取数据
- cassandra删除数据
- cassandra cql数据类型
- Cassandra CQL系列
- cassandra cql用户定义的数据类型
- 卡桑德拉快速指南
- 卡桑德拉资源
- 卡桑德拉讨论