[www.ed2k.online]下載基地為您提供軟件、遊戲、圖書、教育等各種資源的ED2K電驢共享下載和MAGNET磁力鏈接下載。
設為首頁
加入收藏
首頁 圖書資源 軟件資源 游戲資源 教育資源 其他資源
 電驢下載基地 >> 图书资源 >> 計算機與網絡 >> 《數據科學實戰》掃描版[PDF]
《數據科學實戰》掃描版[PDF]
下載分級 图书资源
資源類別 計算機與網絡
發布時間 2017/7/18
大       小 -
《數據科學實戰》掃描版[PDF] 簡介: 簡 介 中文名 : 數據科學實戰 作者 : (美)舒特(Rachel Schutt) (美) 奧尼爾(Cathy O'Neil) 譯者 : 馮凌秉 王群鋒 圖書分類 : 網絡 資源格式 : PDF 版本 : 掃描版 出版社 : 人民郵電出版社 書號 : 9787115383495 發行時間 : 2015年03月01日 地區 : 大陸
電驢資源下載/磁力鏈接資源下載:
全選
"《數據科學實戰》掃描版[PDF]"介紹
  • 簡 介
  • 中文名: 數據科學實戰
    作者: (美)舒特(Rachel Schutt)
    (美) 奧尼爾(Cathy O'Neil)
    譯者: 馮凌秉
    王群鋒
    圖書分類: 網絡
    資源格式: PDF
    版本: 掃描版
    出版社: 人民郵電出版社
    書號: 9787115383495
    發行時間: 2015年03月01日
    地區: 大陸
    語言: 簡體中文
    簡介:

    內容介紹:
    《數據科學實戰》脫胎於哥倫比亞大學“數據科學導論”課程的教學講義,它界定了數據科學的研究范疇,是一本注重人文精神,多角度、全方位、深入介紹數據科學的實用指南,堪稱大數據時代的實戰寶典。本書旨在讓讀者能夠舉一反三地解決重要問題,內容包括:數據科學及工作流程、統計模型與機器學習算法、信息提取與統計變量創建、數據可視化與社交網絡、預測模型與因果分析、數據預處理與工程方法。另外,本書還將帶領讀者展望數據科學未來的發展。
    作者簡介:
    Rachel Schutt,美國新聞集團旗下數據科學部門高級副總裁、哥倫比亞大學統計系兼職教授、約翰遜實驗室高級研究科學家,同時也是哥倫比亞大學數據科學及工程研究所教育委員會的發起人之一。她曾在谷歌研究院工作數年,負責設計算法原型並通過建模理解用戶行為。
    Cathy O'Neil,約翰遜實驗室高級數據科學家、哈佛大學數學博士、麻省理工學院數學系博士後、巴納德學院教授,曾發表過大量算術代數幾何方面的論文。他曾在全球投資管理公司D.E. Shaw擔任對沖基金金融師,後加入專門評估銀行和對沖基金風險的軟件公司RiskMetrics,個人博客:mathbabe.org。
    備注說明:
    書籍來源於網絡,轉載於網易博客,更多書籍可到百度搜索 ntccy2009博客 查找資源自行下載 請支持正版!
    內容截圖:


    目錄:
    作者介紹 XII
    關於封面圖 XIII
    前言 XIV
    第1章 簡介:什麼是數據科學
    1.1 大數據和數據科學的喧囂
    1.2 沖出迷霧
    1.3 為什麼是現在
    1.4 數據科學的現狀和歷史
    1.5 數據科學的知識結構
    1.6 思維實驗:元定義
    1.7 什麼是數據科學家
    1.7.1 學術界對數據科學家的定義
    1.7.2 工業界對數據科學家的定義
    第2章 統計推斷、探索性數據分析和數據科學工作流程
    2.1 大數據時代的統計學思考
    2.1.1 統計推斷
    2.1.2 總體和樣本
    2.1.3 大數據的總體和樣本
    2.1.4 大數據意味著大膽的假設
    2.1.5 建模
    2.2 探索性數據分析
    2.2.1 探索性數據分析的哲學
    2.2.2 練習:探索性數據分析
    2.3 數據科學的工作流程
    2.4 思維實驗:如何模擬混沌
    2.5 案例學習:RealDirect
    2.5.1 RealDirect是如何賺錢的
    2.5.2 練一練:RealDirect公司的數據策略
    第3章 算法
    3.1 機器學習算法
    3.2 三大基本算法
    3.2.1 線性回歸模型
    3.2.2 k 近鄰模型(k-NN)
    3.2.3 k 均值算法
    3.3 練習:機器學習算法基礎
    3.4 總結
    3.5 思維實驗:關於統計學家的自動化
    第4章 垃圾郵件過濾器、樸素貝葉斯與數據清理
    4.1 思維實驗:從實例中學習
    4.1.1 線性回歸為何不適用
    4.1.2 k 近鄰效果如何
    4.2 樸素貝葉斯模型
    4.2.1 貝葉斯法則
    4.2.2 個別單詞的過濾器
    4.2.3 直通樸素貝葉斯
    4.3 拉普拉斯平滑法
    4.4 對比樸素貝葉斯和k 近鄰
    4.5 Bash代碼示例
    4.6 網頁抓取:API和其他工具
    4.7 Jake的練習題:文章分類問題中的樸素貝葉斯模型
    第5章 邏輯回歸
    5.1 思維實驗
    5.2 分類器
    5.2.1 運行時間
    5.2.2 你自己
    5.2.3 模型的可解釋性
    5.2.4 可擴展性
    5.3 邏輯回歸:一個來自M6D 的真實案例研究
    5.3.1 點擊模型
    5.3.2 模型背後
    5.3.3 α和β 的參數估計
    5.3.4 牛頓法
    5.3.5 隨機梯度下降法
    5.3.6 操練
    5.3.7 模型評價
    5.4 練習題
    第6章 時間戳數據與金融建模
    6.1 Kyle Teague與GetGlue公司
    6.2 時間戳
    6.2.1 探索性數據分析(EDA)
    6.2.2 指標和新變量
    6.2.3 下一步怎麼做
    6.3 輪到Cathy O'Neill了
    6.4 思維實驗
    6.5 金融建模
    6.5.1 樣本期內外以及因果關系
    6.5.2 金融數據處理
    6.5.3 對數收益率
    6.5.4 實例:標准普爾指數
    6.5.5 如何衡量波動率
    6.5.6 指數平滑法
    6.5.7 金融模型的反饋
    6.5.8 聊聊回歸模型
    6.5.9 先驗信息量
    6.5.10 一個小例子
    6.6 練習:GetGlue提供的時間戳數據
    第7章 從數據到結論
    7.1 William Cukierski
    7.1.1 背景介紹:數據科學競賽
    7.1.2 背景介紹:眾包模式
    7.2 Kaggle模式
    7.2.1 Kaggle的參賽者
    7.2.2 Kaggle的客戶
    7.3 思維實驗:關於作業自動評分系統
    7.4 特征選擇
    7.4.1 例子:留住用戶
    7.4.2 過濾型
    7.4.3 包裝型
    7.4.4 決策樹與嵌入型變量選擇
    7.4.5 熵
    7.4.6 決策樹算法
    7.4.7 如何在決策樹模型中處理連續性變量
    7.4.8 隨機森林
    7.4.9 用戶黏性:模型的預測能力與可解釋性
    7.5 David Huffaker:谷歌社會學研究的新方法
    7.5.1 從描述性統計到預測模型
    7.5.2 谷歌的社交研究
    7.5.3 隱私保護
    7.5.4 思維實驗:如何消除用戶的顧慮
    第8章 構建面向大量用戶的推薦引擎
    8.1 一個真實的推薦引擎
    8.1.1 最近鄰算法回顧
    8.1.2 最近鄰模型的已知問題
    8.1.3 超越近鄰模型:基於機器學習的分類模型
    8.1.4 高維度問題
    8.1.5 奇異值分解(SVD)
    8.1.6 關於SVD的重要特性
    8.1.7 主成分分析(PCA)
    8.1.8 交替最小二乘法
    8.1.9 固定矩陣V,更新矩陣U
    8.1.10 關於這些算法的一點思考
    8.2 思維實驗:如何過濾模型中的泡沫
    8.3 練習:搭建自己的推薦系統
    第9章 數據可視化與欺詐偵測
    9.1 數據可視化的歷史
    9.1.1 Gabriel Tarde
    9.1.2 Mark 的思維實驗
    9.2 到底什麼是數據科學
    9.2.1 Processing
    9.2.2 Franco Moretti
    9.3 一個數據可視化的方案實例
    9.4 Mark 的數據可視化項目
    9.4.1 《紐約時報》大廳裡的可視化:Moveable Type
    9.4.2 屏幕上的生命:Cascade可視化項目
    9.4.3 Cronkite廣場項目
    9.4.4 eBay與圖書網購
    9.4.5 公共劇場裡的"莎士比亞機"
    9.4.6 這些展覽的目的是什麼
    9.5 數據科學和風險
    9.5.1 關於Square公司
    9.5.2 支付風險
    9.5.3 模型效果的評估問題
    9.5.4 建模小貼士
    9.6 數據可視化在Square
    9.7 Ian的思維實驗
    9.8 關於數據可視化
    第10章 社交網絡與數據新聞學
    10.1 Morning Analytics與社交網絡
    10.2 社交網絡分析
    10.3 關於社交網絡分析的相關術語
    10.3.1 如何衡量向心性
    10.3.2 使用哪種向心性測度
    10.4 思維實驗
    10.5 Morningside Analytics
    10.6 從統計學的角度看社交網絡分析
    10.6.1 網絡的表示方法與特征值向心度
    10.6.2 隨機網絡的第一個例子:Erdos-Renyi模型
    10.6.3 隨機網絡的第二個例子:指數隨機網絡圖模型
    10.7 數據新聞學
    10.7.1 關於數據新聞學的歷史回顧
    10.7.2 數據新聞報告的寫作:來自專家的建議
    第11章 因果關系研究
    11.1 相關性並不代表因果關系
    11.1.1 對因果關系提問
    11.1.2 干擾因子:一個關於在線約會網站的例子
    11.2 OK Cupid的發現
    11.3 黃金准則:隨機化臨床實驗
    11.4 A/B測試
    11.5 退一步求其次:關於觀察性研究
    11.5.1 辛普森悖論
    11.5.2 魯賓因果關系模型
    11.5.3 因果關系的可視化
    11.5.4 定義:因果關系
    11.6 三個小建議
    第12章 流行病學
    12.1 Madigan的學術背景
    12.2 思維實驗
    12.3 統計學在現代
    12.4 醫學文獻與觀察性研究
    12.5 分層法不解決干擾因子的問題
    12.6 就沒有更好的辦法嗎
    12.7 研究性實驗(OMOP)
    12.8 最後的思維實驗
    第13章 從競賽中學到的:數據洩漏和模型評價
    13.1 Claudia作為數據科學家的知識結構
    13.1.1 首席數據科學家的生活
    13.1.2 作為一名女數據科學家
    13.2 數據挖掘競賽
    13.3 如何成為出色的建模者
    13.4 數據洩漏
    13.4.1 市場預測
    13.4.2 亞馬遜案例學習:出手闊綽的顧客
    13.4.3 珠寶抽樣問題
    13.4.4 IBM 客戶鎖定
    13.4.5 乳腺癌檢測
    13.4.6 預測肺炎
    13.5 如何避免數據洩漏
    13.6 模型評價
    13.6.1 准確度重要嗎
    13.6.2 概率的重要性,不是非0 即1
    13.7 如何選擇算法
    13.8 最後一個例子
    13.9 臨別感言
    第14章 數據工程:MapReduce、Pregel、Hadoop
    14.1 關於David Crawshaw
    14.2 思維實驗
    14.3 MapReduce
    14.4 單詞頻率問題
    14.5 其他MapReduce案例
    14.6 Pregel
    14.7 關於Josh Wills
    14.8 思維實驗
    14.9 給數據科學家的話
    14.9.1 數據豐富和數據匮乏
    14.9.2 設計模型
    14.10 算算Hadoop的經濟賬
    14.10.1 Hadoop簡介
    14.10.2 Cloudera
    14.11 Josh 的工作流程
    14.12 如何開始使用Hadoop
    第15章 聽聽學生們怎麼說
    15.1 重在過程
    15.2 不再簡單
    15.3 援助之手
    15.4 殊途同歸
    15.5 逢山開路,遇水架橋
    15.6 作品展示
    第16章 下一代數據科學家、自大狂和職業道德
    16.1 前面都講了些什麼
    16.2 什麼是數據科學(再問一次)
    16.3 誰是下一代的數據科學家
    16.3.1 成為解決問題的人
    16.3.2 培養軟技能
    16.3.3 成為提問者
    16.4 做一個有道德感的數據科學家
    16.5 對於職業生涯的建議


    表情網
    相關資源:

    免責聲明:本網站內容收集於互聯網,本站不承擔任何由於內容的合法性及健康性所引起的爭議和法律責任。如果侵犯了你的權益,請通知我們,我們會及時刪除相關內容,謝謝合作! 聯系信箱:[email protected]

    Copyright © 電驢下載基地 All Rights Reserved