全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线

全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店精美图片

全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店电子书下载地址

》全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店电子书籍版权问题 请点击这里查看《

全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店书籍详细信息

  • ISBN:9787302577874
  • 作者:暂无作者
  • 出版社:暂无出版社
  • 出版时间:2021-05
  • 页数:暂无页数
  • 价格:56.60
  • 纸张:胶版纸
  • 装帧:平装-胶订
  • 开本:16开
  • 语言:未知
  • 丛书:暂无丛书
  • TAG:暂无
  • 豆瓣评分:暂无豆瓣评分
  • 豆瓣短评:点击查看
  • 豆瓣讨论:点击查看
  • 豆瓣目录:点击查看
  • 读书笔记:点击查看
  • 原文摘录:点击查看
  • 更新时间:2025-01-20 00:56:00

寄语:

正版图书保证质量 七天无理由退货让您购物无忧


内容简介:

本书涵盖数据分析与数据挖掘的基础知识、必备工具和有效实践方法,能让读者充分掌握数据分析与数据挖掘的基本技能。 本书共分为15章,主要内容包括大数据获取、数据预处理、探索性数据分析、用Sklearn估计器分类、主流数据分析库、大数据的数据库类型、数据仓库/商业智能、数据聚合与分组运算、数据挖掘工具、挖掘建模、模型评估、社会媒体挖掘、图挖掘分类、基于深度学习的验证码识别、基于深度学习的文本分类挖掘实现。 本书采用理论与实践相结合的方式,利用Python语言的强大功能,以*小的编程代价进行数据的提取、处理、分析和挖掘,既适合Python数据分析与数据挖掘初学者、大数据从业人员阅读,也适合高等院校和培训机构大数据与人工智能相关专业的师生教学参考。


书籍目录:

目 录

TOC o "1-3" h z u HYPERLINK l "_Toc64713578" 第1章 HYPERLINK l "_Toc64713579" 大数据采集 PAGEREF _Toc64713579 h 1

HYPERLINK l "_Toc64713580" 1.1 大数据分类 PAGEREF _Toc64713580 h 1

HYPERLINK l "_Toc64713581" 1.2 大数据采集方法 PAGEREF _Toc64713581 h 2

HYPERLINK l "_Toc64713582" 1.3 Python爬虫 PAGEREF _Toc64713582 h 3

HYPERLINK l "_Toc64713583" 1.3.1 审查元素 PAGEREF _Toc64713583 h 4

HYPERLINK l "_Toc64713584" 1.3.2 认识网页结构 PAGEREF _Toc64713584 h 5

HYPERLINK l "_Toc64713585" 1.3.3 认识robots.txt的文档 PAGEREF _Toc64713585 h 6

HYPERLINK l "_Toc64713586" 1.3.4 爬虫的基本原理 PAGEREF _Toc64713586 h 11

HYPERLINK l "_Toc64713587" 1.3.5 Python爬虫架构 PAGEREF _Toc64713587 h 11

HYPERLINK l "_Toc64713588" 1.3.6 用GET方式抓取数据 PAGEREF _Toc64713588 h 12

HYPERLINK l "_Toc64713589" 1.3.7 用POST方式抓取数据 PAGEREF _Toc64713589 h 15

HYPERLINK l "_Toc64713590" 1.3.8 用Beautiful Soup解析网页 PAGEREF _Toc64713590 h 17

HYPERLINK l "_Toc64713591" 1.3.9 Python爬虫案例 PAGEREF _Toc64713591 h 19

HYPERLINK l "_Toc64713592" 1.4 本章小结 PAGEREF _Toc64713592 h 25

HYPERLINK l "_Toc64713593" 第2章 HYPERLINK l "_Toc64713594" 数据预处理 PAGEREF _Toc64713594 h 26

HYPERLINK l "_Toc64713595" 2.1 数据清洗 PAGEREF _Toc64713595 h 26

HYPERLINK l "_Toc64713596" 2.1.1 缺失值处理 PAGEREF _Toc64713596 h 27

HYPERLINK l "_Toc64713597" 2.1.2 异常值处理 PAGEREF _Toc64713597 h 28

HYPERLINK l "_Toc64713598" 2.2 数据集成 PAGEREF _Toc64713598 h 30

HYPERLINK l "_Toc64713599" 2.3 数据转换 PAGEREF _Toc64713599 h 32

HYPERLINK l "_Toc64713600" 2.4 数据规约 PAGEREF _Toc64713600 h 34

HYPERLINK l "_Toc64713601" 2.5 Python主要数据预处理函数 PAGEREF _Toc64713601 h 35

HYPERLINK l "_Toc64713602" 2.6 本章小结 PAGEREF _Toc64713602 h 37

HYPERLINK l "_Toc64713603" 第3章 HYPERLINK l "_Toc64713604" 探索数据分析 PAGEREF _Toc64713604 h 38

HYPERLINK l "_Toc64713605" 3.1 异常值分析 PAGEREF _Toc64713605 h 38

HYPERLINK l "_Toc64713606" 3.2 缺失值分析 PAGEREF _Toc64713606 h 41

HYPERLINK l "_Toc64713607" 3.3 分布分析 PAGEREF _Toc64713607 h 43

HYPERLINK l "_Toc64713608" 3.4 相关分析 PAGEREF _Toc64713608 h 46

HYPERLINK l "_Toc64713609" 3.5 对比分析 PAGEREF _Toc64713609 h 48

HYPERLINK l "_Toc64713610" 3.6 统计量分析 PAGEREF _Toc64713610 h 48

HYPERLINK l "_Toc64713611" 3.7 周期分析 PAGEREF _Toc64713611 h 51

HYPERLINK l "_Toc64713612" 3.8 贡献度分析 PAGEREF _Toc64713612 h 51

HYPERLINK l "_Toc64713613" 3.9 Python主要数据探索函数 PAGEREF _Toc64713613 h 52

HYPERLINK l "_Toc64713614" 3.10 本章小结 PAGEREF _Toc64713614 h 53

HYPERLINK l "_Toc64713615" 第4章 HYPERLINK l "_Toc64713616" Sklearn估计器 PAGEREF _Toc64713616 h 54

HYPERLINK l "_Toc64713617" 4.1 Sklearn概述 PAGEREF _Toc64713617 h 54

HYPERLINK l "_Toc64713618" 4.2 使用Sklearn估计器分类 PAGEREF _Toc64713618 h 58

HYPERLINK l "_Toc64713619" 4.2.1 k近邻算法 PAGEREF _Toc64713619 h 59

HYPERLINK l "_Toc647136" 4.2.2 管道机制 PAGEREF _Toc647136 h 63

HYPERLINK l "_Toc64713621" 4.2.3 Sklearn比较分类器 PAGEREF _Toc64713621 h 65

HYPERLINK l "_Toc64713622" 4.3 本章小结 PAGEREF _Toc64713622 h 69

HYPERLINK l "_Toc64713623" 第5章 HYPERLINK l "_Toc64713624" 主流数据分析库 PAGEREF _Toc64713624 h 70

HYPERLINK l "_Toc64713625" 5.1 NumPy PAGEREF _Toc64713625 h 70

HYPERLINK l "_Toc64713626" 5.2 Pandas PAGEREF _Toc64713626 h 75

HYPERLINK l "_Toc64713627" 5.2.1 Pandas系列 PAGEREF _Toc64713627 h 76

HYPERLINK l "_Toc64713628" 5.2.2 Pandas数据帧 PAGEREF _Toc64713628 h 78

HYPERLINK l "_Toc64713629" 5.2.3 Pandas面板 PAGEREF _Toc64713629 h 84

HYPERLINK l "_Toc64713630" 5.3 SciPy PAGEREF _Toc64713630 h 86

HYPERLINK l "_Toc64713631" 5.4 Matplotlib PAGEREF _Toc64713631 h 90

HYPERLINK l "_Toc64713632" 5.5 本章小结 PAGEREF _Toc64713632 h 93

HYPERLINK l "_Toc64713633" 第6章 HYPERLINK l "_Toc64713634" 大数据:数据库类型 PAGEREF _Toc64713634 h 94

HYPERLINK l "_Toc64713635" 6.1 关系型数据库 PAGEREF _Toc64713635 h 94

HYPERLINK l "_Toc64713636" 6.2 关系型数据库与非关系型数据库的关系 PAGEREF _Toc64713636 h 95

HYPERLINK l "_Toc64713637" 6.3 SQLite PAGEREF _Toc64713637 h 96

HYPERLINK l "_Toc64713638" 6.3.1 SQLite安装与配置 PAGEREF _Toc64713638 h 96

HYPERLINK l "_Toc64713639" 6.3.2 SQLite命令 PAGEREF _Toc64713639 h 97

HYPERLINK l "_Toc64713640" 6.3.3 SQLite语法 PAGEREF _Toc64713640 h 99

HYPERLINK l "_Toc64713641" 6.3.4 SQLite - Python PAGEREF _Toc64713641 h 104

HYPERLINK l "_Toc64713642" 6.4 MySQL PAGEREF _Toc64713642 h 111

HYPERLINK l "_Toc64713643" 6.4.1 MySQL安装 PAGEREF _Toc64713643 h 111

HYPERLINK l "_Toc64713644" 6.4.2 MySQL管理 PAGEREF _Toc64713644 h 114

HYPERLINK l "_Toc64713645" 6.4.3 MySQL PHP语法 PAGEREF _Toc64713645 h 116

HYPERLINK l "_Toc64713646" 6.4.4 PHP脚本连接MySQL PAGEREF _Toc64713646 h 116

HYPERLINK l "_Toc64713647" 6.4.5 Python操作MySQL数据库 PAGEREF _Toc64713647 h 117

HYPERLINK l "_Toc64713648" 6.5 NoSQL数据库 PAGEREF _Toc64713648 h 123

HYPERLINK l "_Toc64713649" 6.5.1 NoSQL概述 PAGEREF _Toc64713649 h 123

HYPERLINK l "_Toc64713650" 6.5.2 列存储数据库 PAGEREF _Toc64713650 h 125

HYPERLINK l "_Toc64713651" 6.5.3 文档存储数据库 PAGEREF _Toc64713651 h 134

HYPERLINK l "_Toc64713652" 6.5.4 键值存储数据库 PAGEREF _Toc64713652 h 143

HYPERLINK l "_Toc64713653" 6.5.5 图存储数据库 PAGEREF _Toc64713653 h 153

HYPERLINK l "_Toc64713654" 6.5.6 对象存储数据库 PAGEREF _Toc64713654 h 155

HYPERLINK l "_Toc64713655" 6.5.7 XML数据库 PAGEREF _Toc64713655 h 155

HYPERLINK l "_Toc64713656" 6.6 本章小结 PAGEREF _Toc64713656 h 157

HYPERLINK l "_Toc64713657" 第7章 HYPERLINK l "_Toc64713658" 数据仓库/商业智能 PAGEREF _Toc64713658 h 158

HYPERLINK l "_Toc64713659" 7.1 数据仓库和商业智能简介 PAGEREF _Toc64713659 h 158

HYPERLINK l "_Toc64713660" 7.2 数据仓库架构 PAGEREF _Toc64713660 h 159

HYPERLINK l "_Toc64713661" 7.3 OLAP PAGEREF _Toc64713661 h 160

HYPERLINK l "_Toc64713662" 7.4 数据集市 PAGEREF _Toc64713662 h 161

HYPERLINK l "_Toc64713663" 7.5 商业智能 PAGEREF _Toc64713663 h 162

HYPERLINK l "_Toc64713664" 7.6 本章小结 PAGEREF _Toc64713664 h 163

HYPERLINK l "_Toc64713665" 第8章 HYPERLINK l "_Toc64713666" 数据聚合与分组运算 PAGEREF _Toc64713666 h 164

HYPERLINK l "_Toc64713667" 8.1 GroupBy技术 PAGEREF _Toc64713667 h 164

HYPERLINK l "_Toc64713668" 8.1.1 通过函行分组 PAGEREF _Toc64713668 h 165

HYPERLINK l "_Toc64713670" 8.1.2 对分行迭代 PAGEREF _Toc64713670 h 167

HYPERLINK l "_Toc64713672" 8.1.3 选取一个或一组列 PAGEREF _Toc64713672 h 170

HYPERLINK l "_Toc64713674" 8.1.4 通过字典或Serie行分组 PAGEREF _Toc64713674 h 171

HYPERLINK l "_Toc64713675" 8.1.5 通过函行分组 PAGEREF _Toc64713675 h 172

HYPERLINK l "_Toc64713676" 8.1.6 根据索引级别分组 PAGEREF _Toc64713676 h 173

HYPERLINK l "_Toc64713677" 8.2 数据聚合 PAGEREF _Toc64713677 h 174

HYPERLINK l "_Toc64713678" 8.2.1 面向列的多函数应用 PAGEREF _Toc64713678 h 174

HYPERLINK l "_Toc64713679" 8.2.2 以无索引的方式返回聚合数据 PAGEREF _Toc64713679 h 177

HYPERLINK l "_Toc64713680" 8.2.3 分组级运算和转换 PAGEREF _Toc64713680 h 178

HYPERLINK l "_Toc64713681" 8.3 透视表和交叉表 PAGEREF _Toc64713681 h 181

HYPERLINK l "_Toc64713682" 8.4 本章小结 PAGEREF _Toc64713682 h 183

HYPERLINK l "_Toc64713683" 第9章 HYPERLINK l "_Toc64713684" 数据挖掘工具 PAGEREF _Toc64713684 h 184

HYPERLINK l "_Toc64713685" 9.1 数据挖掘工具分类 PAGEREF _Toc64713685 h 184

HYPERLINK l "_Toc64713686" 9.2 数据挖掘经典算法 PAGEREF _Toc64713686 h 185

HYPERLINK l "_Toc64713687" 9.3 免费数据挖掘工具 PAGEREF _Toc64713687 h 186

HYPERLINK l "_Toc64713688" 9.4 Git和GitHub项目数据挖掘工具 PAGEREF _Toc64713688 h 188

HYPERLINK l "_Toc64713689" 9.5 Python数据挖掘工具 PAGEREF _Toc64713689 h 190

HYPERLINK l "_Toc64713690" 9.5.1 Gensim PAGEREF _Toc64713690 h 190

HYPERLINK l "_Toc64713691" 9.5.2 TensorFlow PAGEREF _Toc64713691 h 194

HYPERLINK l "_Toc64713692" 9.5.3 Keras PAGEREF _Toc64713692 h 197

HYPERLINK l "_Toc64713693" 9.6 本章小结 PAGEREF _Toc64713693 h 197

HYPERLINK l "_Toc64713694" 第10章 HYPERLINK l "_Toc64713695" 挖掘建模 PAGEREF _Toc64713695 h 198

HYPERLINK l "_Toc64713696" 10.1 数据挖掘建模的一般过程 PAGEREF _Toc64713696 h 198

HYPERLINK l "_Toc64713697" 10.2 分类与预测 PAGEREF _Toc64713697 h 199

HYPERLINK l "_Toc64713698" 10.3 聚类分析 PAGEREF _Toc64713698 h 0

HYPERLINK l "_Toc64713699" 10.4 关联分析 PAGEREF _Toc64713699 h 1

HYPERLINK l "_Toc64713700" 10.5 时序模式 PAGEREF _Toc64713700 h 2

HYPERLINK l "_Toc64713701" 10.6 离群点检测 PAGEREF _Toc64713701 h 3

HYPERLINK l "_Toc64713702" 10.7 本章小结 PAGEREF _Toc64713702 h 4

HYPERLINK l "_Toc64713703" 第11章 HYPERLINK l "_Toc64713704" 模型评估 PAGEREF _Toc64713704 h 5

HYPERLINK l "_Toc64713705" 11.1 验证 PAGEREF _Toc64713705 h 5

HYPERLINK l "_Toc64713706" 11.2 交叉验证 PAGEREF _Toc64713706 h 6

HYPERLINK l "_Toc64713707" 11.3 自助法 PAGEREF _Toc64713707 h 6

HYPERLINK l "_Toc64713708" 11.4 回归评估指标 PAGEREF _Toc64713708 h 7

HYPERLINK l "_Toc64713709" 11.5 分类评估指标 PAGEREF _Toc64713709 h 7

HYPERLINK l "_Toc64713710" 11.6 ROC曲线 PAGEREF _Toc64713710 h 8

HYPERLINK l "_Toc64713711" 11.7 本章小结 PAGEREF _Toc64713711 h 210

HYPERLINK l "_Toc64713712" 第12章 HYPERLINK l "_Toc64713713" 社会媒体挖掘 PAGEREF _Toc64713713 h 211

HYPERLINK l "_Toc64713714" 12.1 社会媒体与社会媒体数据 PAGEREF _Toc64713714 h 211

HYPERLINK l "_Toc64713715" 12.2 中国社会媒体核心用户数据分析 PAGEREF _Toc64713715 h 212

HYPERLINK l "_Toc64713716" 12.3 社会媒体挖掘技术与研究热点 PAGEREF _Toc64713716 h 213

HYPERLINK l "_Toc64713717" 12.4 社会媒体挖掘流程 PAGEREF _Toc64713717 h 214

HYPERLINK l "_Toc64713718" 12.5 Twitter情感分析 PAGEREF _Toc64713718 h 216

HYPERLINK l "_Toc64713719" 12.6 本章小结 PAGEREF _Toc64713719 h 221

HYPERLINK l "_Toc647137" 第13章 HYPERLINK l "_Toc64713721" 图挖掘分类 PAGEREF _Toc64713721 h 222

HYPERLINK l "_Toc64713722" 13.1 图挖掘概述 PAGEREF _Toc64713722 h 222

HYPERLINK l "_Toc64713723" 13.2 图挖掘技术基础 PAGEREF _Toc64713723 h 224

HYPERLINK l "_Toc64713724" 13.3 网络度量 PAGEREF _Toc64713724 h 226

HYPERLINK l "_Toc64713725" 13.4 网络模型 PAGEREF _Toc64713725 h 229

HYPERLINK l "_Toc64713726" 13.5 图挖掘与知识推理 PAGEREF _Toc64713726 h 230

HYPERLINK l "_Toc64713727" 13.6 图挖掘算法简介 PAGEREF _Toc64713727 h 231

HYPERLINK l "_Toc64713728" 13.7 社区检测 PAGEREF _Toc64713728 h 232

HYPERLINK l "_Toc64713729" 13.7.1 模块度 PAGEREF _Toc64713729 h 233

HYPERLINK l "_Toc64713730" 13.7.2 社区发现算法 PAGEREF _Toc64713730 h 234

HYPERLINK l "_Toc64713731" 13.8 频繁子图挖掘算法gSpan的实现 PAGEREF _Toc64713731 h 237

HYPERLINK l "_Toc64713732" 13.9 基于work行社交网络分析 PAGEREF _Toc64713732 h 239

HYPERLINK l "_Toc64713733" 13.10 本章小结 PAGEREF _Toc64713733 h 245

HYPERLINK l "_Toc64713734" 第14章 HYPERLINK l "_Toc64713735" 基于深度学证码识别 PAGEREF _Toc64713735 h 246

HYPERLINK l "_Toc64713736" 14.1 获取图片验证码 PAGEREF _Toc64713736 h 246

HYPERLINK l "_Toc64713737" 14.2 验证码图片预处理 PAGEREF _Toc64713737 h 248

HYPERLINK l "_Toc64713738" 14.3 依赖TensorFlow的深度学码识别 PAGEREF _Toc64713738 h 255

HYPERLINK l "_Toc64713739" 14.4 本章小结 PAGEREF _Toc64713739 h 259

HYPERLINK l "_Toc64713740" 第15章 HYPERLINK l "_Toc64713741" 基于深度学本分类挖掘实现 PAGEREF _Toc64713741 h 260

HYPERLINK l "_Toc64713742" 15.1 文本分类概念 PAGEREF _Toc64713742 h 260

HYPERLINK l "_Toc64713743" 15.2 文本分类挖掘算法概述 PAGEREF _Toc64713743 h 261

HYPERLINK l "_Toc64713744" 15.3 基于传统机器学本分类 PAGEREF _Toc64713744 h 262

HYPERLINK l "_Toc64713745" 15.4 基于深度学本分类 PAGEREF _Toc64713745 h 263

HYPERLINK l "_Toc64713746" 15.4.1 FastText文本分类模型算法实现 PAGEREF _Toc64713746 h 264

HYPERLINK l "_Toc64713747" 15.4.2 TextN文本分类模型算法实现 PAGEREF _Toc64713747 h 268

HYPERLINK l "_Toc64713748" 15.4.3 Bert深度双向Transformer构建语言理解预训练模型 PAGEREF _Toc64713748 h 271

HYPERLINK l "_Toc64713749" 15.4.4 TextRNN文本分类 PAGEREF _Toc64713749 h 273

HYPERLINK l "_Toc64713750" 15.4.5 RN文本分类 PAGEREF _Toc64713750 h 275

HYPERLINK l "_Toc64713751" 15.4.6 Hierarchical Attention Network文本分类 PAGEREF _Toc64713751 h 278

HYPERLINK l "_Toc64713752" 15.4.7 seq2seq with attention文本分类 PAGEREF _Toc64713752 h 281

HYPERLINK l "_Toc64713753" 15.4.8 Transformer文本分类 PAGEREF _Toc64713753 h 283

HYPERLINK l "_Toc64713754" 15.4.9 Dynamic Memory Network文本分类 PAGEREF _Toc64713754 h 289

HYPERLINK l "_Toc64713755" 15.4.10 Recurrent Entity Network文本分类 PAGEREF _Toc64713755 h 292

HYPERLINK l "_Toc64713756" 15.4.11 Boosting文本分类 PAGEREF _Toc64713756 h 294

HYPERLINK l "_Toc64713757" 15.4.12 BiLstmTextRelation文本分析 PAGEREF _Toc64713757 h 294

HYPERLINK l "_Toc64713758" 15.4.13 twoNTextRelation文本分类 PAGEREF _Toc64713758 h 297

HYPERLINK l "_Toc64713759" 15.5 本章小结 PAGEREF _Toc64713759 h 297

HYPERLINK l "_Toc64713760" 参考文献 PAGEREF _Toc64713760 h 298


作者介绍:

邓立国,东北大学计算机应用博士毕业。2005年开始在沈阳师范大学软件学院、教育技术学院任教,主要研究方向:数据挖掘、知识工程、大数据处理、云计算、分布式计算等。以作者发表学术论文30多篇(26篇EI),主编教材 1 部,主持科研课题6项,经费10余万元,多次获得校级科研优秀奖,作为九三社员提出的智慧城市提案被市政府采纳,研究成果被教育厅等单位采用。


出版社信息:

暂无出版社相关信息,正在全力查找中!


书籍摘录:

大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。大数括

RFID

数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。数据源的特点是种类多、类型繁杂、数据量大和产生的速度快,传统的数据采集方法无法胜任。因而,大数据采集技术面临着许多技术挑战,既要保证数据采集的可靠和,还要避免重复数据。

1.pan>

大数据分类传统的数据采集来源单一,且存储、管理和分析数据量相对较小,大多采用关系型数据库和并行数据仓库处理。在大数据体系中,传统数据分为业务数据和行业数据,传统数据体系中没有考虑过的新数据源,这些新数据括内容数据、线上行为数据和线下行为数据

3

大类。大数据采集与传统数据采集有很大的区别。

1.

大数据分

5

类业务数据:消费者数据、客户关系数据、库存数据、账目数据等。行业数据:车流量数据、能耗数据、

PM2.5

数据等。内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。线上行为数据:页面数据、交互数据、表单数据、会话数据、反馈数据等。线下行为数据:车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。

Python

数据分析与挖掘实战

2.

大数据主要有

4

个来源。企业系统:客户关系管理系统、企业资源计划系统、库存系统、销售系统等。。机器系统:智能仪表、工业设备传感器、智能设备、监控系统等。

·

互联网系统:电商系统、服务行业业务系统、监管系统等。。社交系统:、

00

、微博、博客、新闻网站、朋友圈等。

3.

机器系统产生的数据可分为两大类。通过智能仪表和传感器获取行业数据。例如,公路卡口设备获取车流量数据、智能电表获取用电量等。。通过各类监控设备获取人、动物和物体的位置和轨迹信息。石联网系统会产生相关的业务数据和线上行为数据,例如,用户的反馈和评价信息、用户购买的产品和品牌信息等。社交系统会产生大量的内容数据,如博客与照片,以及线上行为数据等。

4.

线上线下数据区别。数据源区别:传统数据采集的数据源单一,是从传统企业的客户关系管理系统、企业资源计划系统及相关业务系统中获取数据,而大数据采集系统还需要从社交系统、互联网系统及各种类型的机器设备上获取数据。

·

数据量区别:互联网系统和机器系统产生的数据量要远远大于企业系统的数据量。

·

数据结构区别:传统数据采集的数据是结构化的数据,而大数据采集系统需要采集大量的、音频、照片等非结构化数据,以及网页、博客、日志等半结构化数据。

·

数据产生速度区别:传统数据采集的数据几乎都是由人操作生成的,远远慢于机器生成数据的效率。因此,传统数据采集的方法和大数据采集的方法也有根本区别。

1.2

大数据采集方法数据采集的方法几乎取决于数据源的特,毕竟数据源是整个大数据平台蓄水的上游,数据采集不过是获取水源的管道。在数据仓库的语境下,

ETL

基本上是数据采集的代表括数据的提取(

Extract)

、转换

(Transform)

和加载

(Load)

。在转换的过程中,需要针对具体的业务场景对数行治理,例行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整等。在大数据平台下,数据源具有更复杂的多样,数据采集的形式也变得更加复杂而多样,当然业务场景也可能变得迥然不同。大数据的采集是指利用多个数据库或存储系统来接收发自客户端(

Web

App

或者传感器等)的数据。例如,电商会使用传统的关系型数据库

MySQL

Oracle

等来存储每一笔事务数

……



原文赏析:

暂无原文赏析,正在全力查找中!


其它内容:

编辑推荐

本书以数据分析与挖掘五大环节(数据采集、数据预处理、探索分析、挖掘建模、模型评估)为轴线,配以分析用的数据与源代码,系统地介绍数据分析与挖掘建模领域的科学知识、专业工具、完整流程以及编程技巧,让你能够快速胜任数据分析师岗位。


书摘插图


书籍介绍

本书涵盖数据分析与数据挖掘的基础知识、必备工具和有效实践方法,能让读者充分掌握数据分析与数据挖掘的基本技能。 本书共分为15章,主要内容包括大数据获取、数据预处理、探索性数据分析、用Sklearn估计器分类、主流数据分析库、大数据的数据库类型、数据仓库/商业智能、数据聚合与分组运算、数据挖掘工具、挖掘建模、模型评估、社会媒体挖掘、图挖掘分类、基于深度学习的验证码识别、基于深度学习的文本分类挖掘实现。 本书采用理论与实践相结合的方式,利用Python语言的强大功能,以*小的编程代价进行数据的提取、处理、分析和挖掘,既适合Python数据分析与数据挖掘初学者、大数据从业人员阅读,也适合高等院校和培训机构大数据与人工智能相关专业的师生教学参考。


书籍真实打分

  • 故事情节:3分

  • 人物塑造:4分

  • 主题深度:6分

  • 文字风格:5分

  • 语言运用:9分

  • 文笔流畅:8分

  • 思想传递:5分

  • 知识深度:6分

  • 知识广度:9分

  • 实用性:7分

  • 章节划分:6分

  • 结构布局:4分

  • 新颖与独特:9分

  • 情感共鸣:4分

  • 引人入胜:9分

  • 现实相关:3分

  • 沉浸感:3分

  • 事实准确性:3分

  • 文化贡献:6分


网站评分

  • 书籍多样性:6分

  • 书籍信息完全性:6分

  • 网站更新速度:4分

  • 使用便利性:7分

  • 书籍清晰度:5分

  • 书籍格式兼容性:3分

  • 是否包含广告:3分

  • 加载速度:4分

  • 安全性:8分

  • 稳定性:4分

  • 搜索功能:4分

  • 下载便捷性:9分


下载点评

  • 盗版少(481+)
  • 图文清晰(435+)
  • 中评(679+)
  • epub(232+)
  • 速度慢(355+)
  • 无水印(608+)
  • 简单(198+)

下载评价

  • 网友 冯***丽: ( 2025-01-05 23:51:35 )

    卡的不行啊

  • 网友 陈***秋: ( 2024-12-29 08:08:57 )

    不错,图文清晰,无错版,可以入手。

  • 网友 权***颜: ( 2025-01-08 17:00:44 )

    下载地址、格式选择、下载方式都还挺多的

  • 网友 车***波: ( 2025-01-04 09:29:39 )

    很好,下载出来的内容没有乱码。

  • 网友 权***波: ( 2024-12-20 10:45:59 )

    收费就是好,还可以多种搜索,实在不行直接留言,24小时没发到你邮箱自动退款的!

  • 网友 孙***美: ( 2024-12-21 09:25:25 )

    加油!支持一下!不错,好用。大家可以去试一下哦

  • 网友 曾***文: ( 2025-01-13 20:58:52 )

    五星好评哦

  • 网友 晏***媛: ( 2025-01-08 00:08:40 )

    够人性化!

  • 网友 温***欣: ( 2025-01-05 04:50:44 )

    可以可以可以


随机推荐