徽标
联盟百科
通讯
下载应用,请到 Google Play
新! 在您的Android™设备上下载联盟百科!
下载
比浏览器更快的访问!
 

数据挖掘

指数 数据挖掘

数据挖掘(data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“資料庫知識發現”(KDD)的分析步骤。数据挖掘:实用机器学习技术及Java实现》一书大部分是机器学习的内容。这本书最初只叫做“实用机器学习”,“数据挖掘”一词是后来为了营销才加入的。通常情况下,使用更为正式的术语,(大规模)数据分析和分析学,或者指出实际的研究方法(例如人工智能和机器学习)会更准确一些。 数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息,例如数据的分组(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联式规则挖掘)。这通常涉及到数据库技术,例如。这些潜在信息可通过对输入数据处理之后的总结来呈现,之后可以用于进一步分析,比如机器学习和预测分析。举个例子,进行数据挖掘操作时可能要把数据分成多组,然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤,但是它们确实属于“資料庫知識發現”(KDD)过程,只不过是一些额外的环节。 类似词语“”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样(可能)过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。.

54 关系: Anomaly detection劍橋大學出版社增强学习多元变量统计大规模监控大數據定量构效关系不列顛哥倫比亞大學人工神经网络人工智能异常检测信息融合信息抽取分类问题决策树决策支持系统商业智能关系数据库关联式规则关联规则学习線上演算法统计学缺失数据网页抓取美国国家安全局生物信息学監督式學習監視聚类分析遗传算法非監督式學習预测分析西弗吉尼亞大學計算複雜性理論计算机协会计算机科学資料倉儲資料超市迴歸分析零售Prentice Hall推論統計學恒星风 (情报活动代号)概率模型机器学习施普林格科学+商业媒体文本挖掘支持向量机数学分析数据库...数据分析数据管理数据集成数据清理 扩展索引 (4 更多) »

Anomaly detection

#重定向 异常检测.

新!!: 数据挖掘和Anomaly detection · 查看更多 »

劍橋大學出版社

劍橋大學出版社(Cambridge University Press)隸屬於英國劍橋大學,成立於1534年,是世界上僅次於牛津大學出版社的第二大大學出版社。.

新!!: 数据挖掘和劍橋大學出版社 · 查看更多 »

增强学习

#重定向 强化学习.

新!!: 数据挖掘和增强学习 · 查看更多 »

多元变量统计

多元变量统计(Multivariate statistics,或作Multivariate statistical analysis、Multivariate analysis,多因素分析、多重变量分析)是社会学、医学、金融、数量心理学、市场营销等常用的一系列在一个时点观察并分析多个统计变量的实证分析方法的总称,目前在应用和理论研究上十分活跃,常用软件是有Matlab、SAS、R、SPSS等等。.

新!!: 数据挖掘和多元变量统计 · 查看更多 »

大规模监控

大规模监控(Mass surveillance,也称为大规模监视或大规模监听)是一种针对全体人口或大多数人口的复杂监控,其目的是掌握民众的行为。大规模监控通常是由政府或是政府所属的情报机构进行的,此时可强调为“大规模政府监控”;但除了政府,大型企业集团也可能自主进行,或是受到政府支持而进行这样的监控。因为各国的法律和司法系统不同,大规模监控的合法性与需要的法律授权也有很大的不同。 大规模监控常以打击恐怖主义、避免社会动乱、保护国家安全、打击儿童色情以及保护儿童等理由被提出;提出者认为这是达到上述目的必要手段,并使用“无所隐瞒论”对其进行辩护。相反的,大规模监视也经常因为侵犯隐私权、限制公民的政治权力和自由、违反法律或宪法而被批评。目前的担忧认为,大规模监控可能会带领国家走向“监控国家”和“电子警察国家”,不但公民自由受到侵犯,而且政治异见人士可能会被棱镜之类的计划暗算,这种国家也可称之为极权国家。 2013年,在全球政府的大规模监控行为被爱德华·斯诺登曝光后,这种做法引起了人们的广泛质疑。各种媒体对斯诺登泄露文件的相关报道,引起了关于数字时代的公民自由与隐私权的辩论。.

新!!: 数据挖掘和大规模监控 · 查看更多 »

大數據

--(Big data)--,指的是傳統數據處理應用軟件不足以處理它們的大或複雜的數據集的術語。大數據也可以定義為來自各種來源的大量非結構化或結構化數據。從學術角度而言,大數據的出現促成了廣泛主題的新穎研究。這也導致了各種大數據統計方法的發展。大數據並沒有抽樣;它只是觀察和追踪發生的事情。因此,大數據通常包含的數據大小超出了傳統軟件在可接受的時間內處理的能力。由於近期的技術進步,發布新數據的便捷性以及全球大多數政府對高透明度的要求,大數據分析在現代研究中越來越突出。.

新!!: 数据挖掘和大數據 · 查看更多 »

定量构效关系

定量构效关系(QSAR)是一种借助分子的理化性质参数或结构参数,以数学和统计学手段定量研究有机小分子与生物大分子相互作用、有机小分子在生物体内吸收、分布、代谢、排泄等生理相关性质的方法。这种方法广泛应用于药物、农药、化学毒剂等生物活性分子的合理设计,在早期的药物设计中,定量构效关系方法占据主导地位,1990年代以来随着计算机计算能力的提高和众多生物大分子三维结构的准确测定,基于结构的药物设计逐渐取代了定量构效关系在药物设计领域的主导地位,但是QSAR在药学研究中仍然发挥着非常重要的作用。.

新!!: 数据挖掘和定量构效关系 · 查看更多 »

不列顛哥倫比亞大學

英屬哥倫比亞大學(University of British Columbia,Université de la Colombie-Britannique,簡稱UBC)--簡稱卑--詩大學或卑大,是一所位於加拿大卑斯省的公立大學,也是U15大學聯盟、大英國協大學協會、环太平洋大学联盟、和Universitas 21成員之一。UBC为全世界培養了眾多的顶尖人才,學術聲譽極高,至目前為止共有7位校友获得诺贝尔奖,其中包括著名经济学家-zh-tw:勞勃·孟岱爾;zh-cn:罗伯特·蒙代尔;zh-hant:羅伯特·蒙代爾;zh-hk:羅拔·蒙道;-。UBC於1908年創校,現在總共有兩個主要校區。學校主校區位於緊鄰溫哥華市西端的大學保留地,為卑斯省最古老的大學,起初為研究性合作機構,後來逐漸發展為聞名國際的綜合大學;另外该校位於基隆拿市的新校區成立于2005年,稱為英屬哥倫比亞大學奧卡納干分校,取代原奧卡納干大學學院。.

新!!: 数据挖掘和不列顛哥倫比亞大學 · 查看更多 »

人工神经网络

人工神经网络(Artificial Neural Network,ANN),简称神经网络(Neural Network,NN)或類神經網絡,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中樞神經系統,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统,通俗的講就是具備學習功能。现代神经网络是一种非线性统计性数据建模工具。典型的神经网络具有以下三个部分:.

新!!: 数据挖掘和人工神经网络 · 查看更多 »

人工智能

人工智能(Artificial Intelligence, AI)亦稱機器智能,是指由人製造出來的機器所表現出來的智能。通常人工智能是指通過普通電腦程式的手段實現的人類智能技術。該詞也指出研究這樣的智能系統是否能夠實現,以及如何實現科學領域。同時如此,人類的數量開始收斂及功能逐漸被其取代。 一般教材中的定义领域是“智能主体(intelligent agent)的研究与设计”,智能主体是指一个可以观察周遭环境并作出行动以达致目标的系统。约翰·麦卡锡于1955年的定义是「制造智能机器的科学与工程。」 人工智能的研究是高度技术性和专业的,各分支领域都是深入且各不相通的,因而涉及範圍極廣。人工智能的研究可以分为几个技术问题。其分支领域主要集中在解决具体问题,其中之一是,如何使用各种不同的工具完成特定的应用程序。 AI的核心问题包括建構能夠跟人類似甚至超越的推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。強人工智能目前仍然是该领域的长远目标。目前強人工智慧已經有初步成果,甚至在一些影像辨識、語言分析、棋類遊戲等等單方面的能力達到了超越人類的水平,而且人工智慧的通用性代表著,能解決上述的問題的是一樣的AI程式,無須重新開發算法就可以直接使用現有的AI完成任務,與人類的處理能力相同,但達到具備思考能力的統合強人工智慧還需要時間研究,比较流行的方法包括统计方法,计算智能和传统意义的AI。目前有大量的工具应用了人工智能,其中包括搜索和数学优化、逻辑推演。而基於仿生學、認知心理學,以及基于概率论和经济学的演算法等等也在逐步探索當中。.

新!!: 数据挖掘和人工智能 · 查看更多 »

异常检测

在数据挖掘中,异常检测(anomaly detection)对不符合预期模式或中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。 特别是在检测滥用与网络入侵时,有趣性对象往往不是罕见对象,但却是超出预料的突发活动。这种模式不遵循通常统计定义中把异常点看作是罕见对象,于是许多异常检测方法(特别是无监督的方法)将对此类数据失效,除非进行了合适的聚集。相反,聚类分析算法可能可以检测出这些模式形成的微聚类。 有三大类异常检测方法。 在假设数据集中大多数实例都是正常的前提下,无监督异常检测方法能通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常。监督式异常检测方法需要一个已经被标记“正常”与“异常”的数据集,并涉及到训练分类器(与许多其他的统计分类问题的关键区别是异常检测的内在不均衡性)。半监督式异常检测方法根据一个给定的正常训练数据集建立一个表示正常行为的模型,然后检测由学习模型生成的测试实例的可能性。.

新!!: 数据挖掘和异常检测 · 查看更多 »

信息融合

信息(数据)融合是一个实时的连续的过程,它多层次、多方面地对多源信息进行探测、联想、估计以及组合处理,其目的是获得精确的被测目标的状态、一致性估计和完整的实时评价。本概念源于军事领域,现已向其他信息科学领域拓展。 Category:資訊科學.

新!!: 数据挖掘和信息融合 · 查看更多 »

信息抽取

信息抽取(Information Extraction,簡稱IE,又譯資訊擷取技術)主要是從大量文字資料中自動抽取特定訊息(Particular Information),以作為資料庫存取(Database Access)之用的技術。 信息抽取的一個廣泛目標是允許對以往非結構化的資料去做計算,具體來說就是要允許邏輯推理能對輸入資料的邏輯內容可以舉一反三。其意義在於決定了例如在網際網路上其非結構化(例:不包含元數據)形式中有用資訊數量的成長。在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性──一個智慧型代理程序,監督一新聞資料饋流,需要資訊擷取技術來轉換非結構化資料到某種可推論的方式。.

新!!: 数据挖掘和信息抽取 · 查看更多 »

分类问题

分类问题是机器学习非常重要的一个组成部分,它的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。分类问题也被称为监督式学习(supervised learning),根据已知训练区提供的样本,通过计算选择特征参数,建立判别函数以对样本进行的分类。 与之相对的称为非监督式学习(unsupervised learning),也叫做聚类分析。 Category:机器学习.

新!!: 数据挖掘和分类问题 · 查看更多 »

决策树

决策论中 (如风险管理),决策树(Decision tree)由一个决策图和可能的结果(包括资源成本和风险)组成, 用来创建到达目标的规划。决策树建立并用来辅助决策,是一种特殊的树结构。决策树是一个利用像树一样的图形或决策模型的决策支持工具,包括随机事件结果,资源代价和实用性。它是一个算法显示的方法。决策树经常在运筹学中使用,特别是在决策分析中,它帮助确定一个能最可能达到目标的策略。如果在实际中,决策不得不在没有完备知识的情况下被在线采用,一个决策树应该平行概率模型作为最佳的选择模型或在线选择模型算法。决策树的另一个使用是作为计算条件概率的描述性手段。.

新!!: 数据挖掘和决策树 · 查看更多 »

决策支持系统

决策支持系统(Decision Support Systems,簡稱DSS),為一種協助人類做決策的資訊系統,協助人類規劃與解決各種行動方案,通常以交談式的方法來解決半結構性(Semi-structured)或非結構性(Non-structured)的問題Gorry, G. A., & Morton, M. S. S. (1971).

新!!: 数据挖掘和决策支持系统 · 查看更多 »

商业智能

商業智慧,又稱商業智能或商務智能,指用現代資料倉儲技術、線上分析處理技術、資料探勘和數據展現技術進行數據分析以實現商業價值。 商業智慧的概念經由Howard Dresner(1989年)的通俗化而被人們廣泛瞭解。當時將商業智慧定義為一類由資料倉儲(或資訊市集)、查詢報表、數據分析、資料探勘、數據備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。 目前,商業智慧通常被理解為將企業中現有的數據轉化為知識,幫助企業做出明智的業務經營決策的工具。這裡所談的數據包括來自企業業務系統的訂單、庫存、交易賬目、客戶和供應商資料及來自企業所處行業和競爭對手的數據,以及來自企業所處的其他外部環境中的各種數據。而商業智慧能夠輔助的業務經營決策既可以是作業層的,也可以是管理層和策略層的決策。 為了將數據轉化為知識,需要利用資料倉儲、線上分析處理(OLAP)工具和資料探勘等技術。因此,從技術層面上講,商業智慧不是什麼新技術,它只是ETL、資料倉儲、OLAP、資料探勘、數據展現等技術的綜合運用。 把商業智慧看成是一種解決方案應該比較恰當。商業智慧的關鍵是從許多來自不同的企業運作系統的數據中提取出有用的數據並進行清理,以保證數據的正確性,然後經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合併到一個企業級的數據倉庫裡,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時資訊變為輔助決策的知識),最後將知識呈現給管理者,為管理者的決策過程提供支持。.

新!!: 数据挖掘和商业智能 · 查看更多 »

关系数据库

关系数据库(Relational database),是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,並配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。标准数据查询语言SQL就是一种基于关系数据库的语言,这种语言执行对关系数据库中数据的检索和操作。 关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成。.

新!!: 数据挖掘和关系数据库 · 查看更多 »

关联式规则

#重定向 关联规则学习.

新!!: 数据挖掘和关联式规则 · 查看更多 »

关联规则学习

关联规则学习(Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.

新!!: 数据挖掘和关联规则学习 · 查看更多 »

線上演算法

在電腦科學中,線上演算法是一種處理輸入資料的獨特形式,其演算過程中並不要求所有輸入資料在演算法開始運始之一刻即完備,反而可對逐步輸入的資料加以處理並在輸入完最後一項資料之後輸出運算結果。與之相對的稱為離線演算法,則假設輸入資料在運算開始前已完備。舉例:選擇排序是離線演算法,而插入排序則為線上演算法。 注意:插入排序始终生成一个最优的结果,也就是说一个正确排序的列表。然而对于很多问题,線上演算法的性能比不上离线算法(即无法取得最优的结果)。如果对于同一个问题的在线算法和最优化的离线算法的性能比率是有界的,那么这个在线算法被称作是competitive。 并非所有在线算法都有与之对应的离线算法。.

新!!: 数据挖掘和線上演算法 · 查看更多 »

统计学

统计学是在資料分析的基础上,研究测定、收集、整理、归纳和分析反映數據資料,以便给出正确訊息的科學。這一门学科自17世纪中叶产生并逐步发展起来,它廣泛地應用在各門學科,從自然科学、社會科學到人文學科,甚至被用於工商業及政府的情報決策。隨著大数据(Big Data)時代來臨,統計的面貌也逐漸改變,與資訊、計算等領域密切結合,是資料科學(Data Science)中的重要主軸之一。 譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為描述統計學。另外,觀察者以數據的形態,建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學则是討論背後的理論基礎的學科。.

新!!: 数据挖掘和统计学 · 查看更多 »

缺失数据

在統計调查的过程中,由于受访者对问题的遗漏、拒绝,或是调查员与调查问卷本身存在的一些疏忽,使得记录经常会出现 缺失数据 (Missing Data) 的问题。但是,几乎所有标准统计方法都假设每个个案具有可用于分析的所有变量信息,因此缺失数据就成为进行统计研究或问卷调查的工作人员所必须解决的一个问题。 Paul D. Allison在其2011年出版的Missing Data一书中,提到了许多解决缺失数据问题的方案,而它们各有利弊。.

新!!: 数据挖掘和缺失数据 · 查看更多 »

网页抓取

网页抓取是一种从网页上获取页面内容的计算机软件技术。通常透過软件使用低级别的超文本传输协议模仿人类的正常访问。 网页抓取和网页索引极其相似,其中网页索引指的是大多数搜索引擎采用使用的机器人或网络爬虫等技术。与此相反,网页抓取更侧重于转换网络上非结构化数据(常见的是HTML格式)成为能在一个中央数据库和电子表格中储存和分析的结构化数据。网页抓取也涉及到网络自动化,它利用计算机软件模拟了人的浏览。网页抓取的用途包括在线的价格比较,联系人抓取,气象数据监测,网页变化检测,科研,混搭和Web数据集成。.

新!!: 数据挖掘和网页抓取 · 查看更多 »

美国国家安全局

美国国家安全局(National Security Agency,縮寫:NSA)是美国政府机构中最大的情报部门,专门负责收集和分析外国及本国通讯资料,隶属于美国国防部,是根据美国总统的命令成立的部门。.

新!!: 数据挖掘和美国国家安全局 · 查看更多 »

生物信息学

生物信息學(bioinformatics)利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。目前主要的研究方向有:序列比对、序列組裝、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及建立进化模型。 生物学技术往往生成大量的嘈杂数据。与数据挖掘类似,生物信息学利用数学工具从大量数据中提取有用的生物学信息。生物信息学所要处理的典型问题包括:重新組裝在霰弹枪定序法测序过程中被打散的DNA序列,从蛋白质的氨基酸序列预测蛋白质结构,利用mRNA微阵列或质谱仪的数据检验基因调控的假说。 某些人将计算生物学作为生物信息学的同义词处理;但是另外一些人认为计算生物学和生物信息学应当被当作不同的条目处理,因为生物信息学更侧重於生物学领域中计算方法的使用和发展,而计算生物学强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。 生物信息学可以定义为对分子生物学中两类信息流的研究:.

新!!: 数据挖掘和生物信息学 · 查看更多 »

監督式學習

監督式學習(Supervised learning),是一個機器學習中的方法,可以由訓練資料中學到或建立一個模式(函數 / learning model),並依此模式推測新的实例。訓練資料是由輸入物件(通常是向量)和預期輸出所組成。函數的輸出可以是一個連續的值(稱為迴歸分析),或是預測一個分類標籤(稱作分類)。 一個監督式學習者的任務在觀察完一些訓練範例(輸入和預期輸出)後,去預測這個函數對任何可能出現的輸入的值的输出。要達到此目的,學習者必須以"合理"(見歸納偏向)的方式從現有的資料中一般化到非觀察到的情況。在人類和動物感知中,則通常被稱為概念學習(concept learning)。.

新!!: 数据挖掘和監督式學習 · 查看更多 »

監視

監視是指對行為、活動或其他變動中信息的一種持續性關注,通常是為了對人達成影響、管理、指導或保護的目的。.

新!!: 数据挖掘和監視 · 查看更多 »

聚类分析

聚类分析(Cluster analysis,亦称为群集分析)是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。 一般把数据聚类归纳为一种非監督式學習。.

新!!: 数据挖掘和聚类分析 · 查看更多 »

遗传算法

遗传算法(genetic algorithm (GA) )是计算数学中用于解决最佳化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。 遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解(称为个体)可抽象表示为染色體,使种群向更好的解进化。传统上,解用二进制表示(即0和1的串),但也可以用其他表示方法。进化从完全随机个体的种群开始,之后一代一代发生。在每一代中评价整个种群的适应度,从当前种群中随机地选择多个个体(基于它们的适应度),通过自然选择和突变产生新的生命种群,该种群在算法的下一次迭代中成为当前种群。.

新!!: 数据挖掘和遗传算法 · 查看更多 »

非監督式學習

非監督式學習是一種機器學習的方式,並不需要人力來輸入標籤。它是監督式學習和強化學習等策略之外的一種選擇。在監督式學習中,典型的任務是分類和迴歸分析,且需要使用到人工預先準備好的範例(base)。 一個常見的非監督式學習是数据聚类。在人工神經網路中,生成對抗網絡(GAN)、自組織映射(SOM)和適應性共振理論(ART)則是最常用的非監督式學習。 ART模型允許叢集的個數可隨著問題的大小而變動,並讓使用者控制成員和同一個叢集之間的相似度分數,其方式為透過一個由使用者自定而被稱為警覺參數的常數。ART也用於模式識別,如自動目標辨識和數位信號處理。第一個版本為"ART1",是由卡本特和葛羅斯柏格所發展的。.

新!!: 数据挖掘和非監督式學習 · 查看更多 »

预测分析

测分析(predictive analysis)是指一类对数据假设的预测性分析。 其表现在使用数据挖掘技术、历史数据和对未来状况的假设,预测如顾客对某报价有所反映的或购买某一产品的可能性等时间的结果。.

新!!: 数据挖掘和预测分析 · 查看更多 »

西弗吉尼亞大學

西弗吉尼亞大學(West Virginia University,縮寫:WVU)是位於美國西弗吉尼亞州摩根敦的一所公立研究型大學、贈地大學,創立於1867年。除去主校區外,還在蒙哥馬利有理工學院、在凱澤有波多馬克學院,在查理斯頓的查理斯頓地區醫療中心有醫學及牙醫學院。該校建有摩根敦個人捷運。 該大學走出過24位羅德學者,2015年《美國新聞與世界報道》的全國大學排名中列在第168位。.

新!!: 数据挖掘和西弗吉尼亞大學 · 查看更多 »

計算複雜性理論

计算复杂性理论(Computational complexity theory)是理论计算机科学和数学的一个分支,它致力于将可计算问题根据它们本身的复杂性分类,以及将这些类别联系起来。一个可计算问题被认为是一个原则上可以用计算机解决的问题,亦即这个问题可以用一系列机械的数学步骤解决,例如算法。 如果一个问题的求解需要相当多的资源(无论用什么算法),则被认为是难解的。计算复杂性理论通过引入数学计算模型来研究这些问题以及定量计算解决问题所需的资源(时间和空间),从而将资源的确定方法正式化了。其他复杂性测度同样被运用,比如通信量(应用于通信复杂性),电路中门的数量(应用于电路复杂性)以及中央处理器的数量(应用于并行计算)。计算复杂性理论的一个作用就是确定一个能或不能被计算机求解的问题的所具有的实际限制。 在理论计算机科学领域,与此相关的概念有算法分析和可计算性理论。两者之间一个关键的区别是前者致力于分析用一个确定的算法来求解一个问题所需的资源量,而后者则是在更广泛意义上研究用所有可能的算法来解决相同问题。更精确地说,它尝试将问题分成能或不能在现有的适当受限的资源条件下解决这两类。相应地,在现有资源条件下的限制正是区分计算复杂性理论和可计算性理论的一个重要指标:后者关心的是何种问题原则上可以用算法解决。.

新!!: 数据挖掘和計算複雜性理論 · 查看更多 »

计算机协会

计算机协会(Association for Computing Machinery,简称ACM)是一个世界性的计算机从业员专业组织,创立于1947年,是世界上第一个科学性及教育性计算机学会,亦是現時全球最大的電腦相關學會。ACM每年都出版大量電腦科学的专门期刊,并就每项专业设有兴趣小组。兴趣小组每年亦会在全世界(但主要在美国)举办世界性讲座及会谈,以供各会员分享他们的研究成果。近年ACM积极开拓网上学习的渠道,以供会员在工作之余或家中提升自己的专业技能。截止20世纪末,ACM在全球拥有75,000个以上的成员,包括遍及学术界、工业、研究和政府领域的学生和计算机专业人员。成员的最高荣誉是会士(Fellow)。 ACM通过它的35个特别兴趣组(Special Interest Group,SIG)提供特殊的技术信息和服务。这些特别兴趣组集中于计算机学科的多种专业,如计算机系统结构专业组(computer architecture,SIGARCH)和计算机图形与互动技术专业组(computer graphics and interactive techniques,SIGGRAPH)。这些特别兴趣组中有不少是跨学科的,适合计算机行业以外的人员。例如有不少艺术家参与到图形互动小组中。 ACM通过支持全球700个以上的专业和学生组织,为当地和地区团体提供服务。其中约有20%不在美国境内。这些组织为专业人士提供服务,搜集信息,准备讲座,组织研讨会和竞赛。 ACM主要成员刊物是Communications of the ACM,刊有一些广泛兴趣的文章,并对每月不同的热点问题展开讨论。ACM也出版了不少获得业内认可的期刊,这些期刊覆盖了计算机领域相当广泛的领域。 ACM主办了8个主要奖项,来表彰计算机领域的技术和专业成就。最高奖项为图灵奖(Turing Award),常被形容为计算机领域的诺贝尔奖。.

新!!: 数据挖掘和计算机协会 · 查看更多 »

计算机科学

计算机科学用于解决信息与计算的理论基础,以及实现和应用它们的实用技术。 计算机科学(computer science,有时缩写为CS)是系统性研究信息与计算的理论基础以及它们在计算机系统中如何与应用的实用技术的学科。 它通常被形容为对那些创造、描述以及转换信息的算法处理的系统研究。计算机科学包含很多分支领域;有些强调特定结果的计算,比如计算机图形学;而有些是探討计算问题的性质,比如计算复杂性理论;还有一些领域專注于怎样实现计算,比如程式語言理論是研究描述计算的方法,而程式设计是应用特定的程式語言解决特定的计算问题,人机交互则是專注于怎样使计算机和计算变得有用、好用,以及随时随地为人所用。 有时公众会误以为计算机科学就是解决计算机问题的事业(比如信息技术),或者只是与使用计算机的经验有关,如玩游戏、上网或者文字处理。其实计算机科学所关注的,不仅仅是去理解实现类似游戏、浏览器这些软件的程序的性质,更要通过现有的知识创造新的程序或者改进已有的程序。 尽管计算机科学(computer science)的名字里包含计算机这几个字,但实际上计算机科学相当数量的领域都不涉及计算机本身的研究。因此,一些新的名字被提议出来。某些重点大学的院系倾向于术语计算科学(computing science),以精确强调两者之间的不同。丹麦科学家Peter Naur建议使用术语"datalogy",以反映这一事实,即科学学科是围绕着数据和数据处理,而不一定要涉及计算机。第一个使用这个术语的科学机构是哥本哈根大学Datalogy学院,该学院成立于1969年,Peter Naur便是第一任教授。这个术语主要被用于北欧国家。同时,在计算技术发展初期,《ACM通讯》建议了一些针对计算领域从业人员的术语:turingineer,turologist,flow-charts-man,applied meta-mathematician及applied epistemologist。 三个月后在同样的期刊上,comptologist被提出,第二年又变成了hypologist。 术语computics也曾经被提议过。在欧洲大陆,起源于信息(information)和数学或者自动(automatic)的名字比起源于计算机或者计算(computation)更常见,如informatique(法语),Informatik(德语),informatika(斯拉夫语族)。 著名计算机科学家Edsger Dijkstra曾经指出:“计算机科学并不只是关于计算机,就像天文学并不只是关于望远镜一样。”("Computer science is no more about computers than astronomy is about telescopes.")设计、部署计算机和计算机系统通常被认为是非计算机科学学科的领域。例如,研究计算机硬件被看作是计算机工程的一部分,而对于商业计算机系统的研究和部署被称为信息技术或者信息系统。然而,现如今也越来越多地融合了各类计算机相关学科的思想。计算机科学研究也经常与其它学科交叉,比如心理学,认知科学,语言学,数学,物理学,统计学和经济学。 计算机科学被认为比其它科学学科与数学的联系更加密切,一些观察者说计算就是一门数学科学。 早期计算机科学受数学研究成果的影响很大,如Kurt Gödel和Alan Turing,这两个领域在某些学科,例如数理逻辑、范畴论、域理论和代数,也不断有有益的思想交流。.

新!!: 数据挖掘和计算机科学 · 查看更多 »

資料倉儲

数据仓库是一门新兴的资讯科技相关理论,以下用二种方式解释。.

新!!: 数据挖掘和資料倉儲 · 查看更多 »

資料超市

数据集市(Data Mart),是数据仓库(Data Warehouse)的一种特殊形式。正如数据仓库,数据集市也包含对操作数据的快照,便于用户基于历史趋势与经验进行战略决策。两者关键的区别在于数据集市的创建是在有具体的、预先定义好了的对被选数据分组并配置的需求基础之上的。配置数据集市强调对相关信息的易连接性。.

新!!: 数据挖掘和資料超市 · 查看更多 »

迴歸分析

迴歸分析()是一種統計學上分析數據的方法,目的在於了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。 迴歸分析是建立因變數Y(或稱依變數,反應變數)與自變數X(或稱獨變數,解釋變數)之間關係的模型。簡單線性回歸使用一個自變量X,複迴歸使用超過一個自變量(X_1, X_2...

新!!: 数据挖掘和迴歸分析 · 查看更多 »

零售

零售是商品供應鏈的最後一站,上游的所有供應商都是為商品増值的參與者,而零售顧客是消費者。在早期人類歷史中的傳統市場(集市),零售商也是商品的生產者,例如工藝飾物、衣服、農業產品銷售。.

新!!: 数据挖掘和零售 · 查看更多 »

Prentice Hall

#重定向 普林帝斯霍爾.

新!!: 数据挖掘和Prentice Hall · 查看更多 »

推論統計學

推断统计学(或称统计推断,statistical inference),指统计学中,研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。更概括地说,是在一段有限的时间内,通过对一个随机过程的观察来进行推断的。 统计学中,统计推断与描述统计相对应。 统计推断的結果常用來決定下一步的作法,可能是要做更深入的試驗或問卷,或是是決定是否要實行某項方案。.

新!!: 数据挖掘和推論統計學 · 查看更多 »

恒星风 (情报活动代号)

恒星风(英文:Stellar Wind)是美国国家安全局执行的某些信息收集活动的代号;这些活动的存在是由Thomas Tamm向《纽约时报》记者James Risen和Eric Lichtblau揭露的。这项任务是由美国前总统小布什于2001年九一一事件发生后不久批准的。 April 28, 2011在欧巴马任内,该项目被更名为RAGTIME;而对内收集活动,即那些针对美国境内的美国公民的情报收集活动,则使用代号RAGTIME-P,其中的“P” “代表‘美国爱国者法案’中的‘爱国者’(Patroit)”,而正是该法赋予了当局进行大宗数据收集的权力。.

新!!: 数据挖掘和恒星风 (情报活动代号) · 查看更多 »

概率模型

概率模型(Statistical Model,也稱為Probabilistic Model)是用来描述不同随机变量之间关系的数学模型,通常情况下刻画了一个或多个随机变量之间的相互非确定性的概率关系。从数学上讲,该模型通常被表达为(Y,P),其中Y是观测集合用来描述可能的观测结果,P是Y对应的概率分布函数集合。若使用概率模型,一般而言需假设存在一个确定的分布P生成观测数据Y。因此通常使用统计推断的办法确定集合P中谁是数据产生的原因。 大多数统计检验都可以被理解为一种概率模型。例如,一个比较两组数据均值的学生t检验可以被认为是对该概率模型参数是否为0的检测。此外,检验与模型的另一个共同点则是两者都需要提出假设并且误差在模型中常被假设为正态分布。.

新!!: 数据挖掘和概率模型 · 查看更多 »

机器学习

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。 机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。.

新!!: 数据挖掘和机器学习 · 查看更多 »

施普林格科学+商业媒体

施普林格科学+商业媒体(Springer Science+Business Media)或施普林格(Springer,),在柏林成立,是一个总部位于德国的世界性出版公司,它出版教科书、学术参考书以及同行评论性杂志,专--于科学、技术、数学以及医学领域。在科学、技术与医学领域中,施普林格是最大的书籍出版者,以及第二大世界性杂志出版者(最大的是爱思唯尔)。施普林格拥有超过60个出版社,每年出版1,900种杂志,5,500种新书,营业额为9.24亿欧元(2006年),雇有超过5,000名员工 。施普林格在柏林、海德堡、多德雷赫特(位于荷兰)与纽约设有主办事处。施普林格亚洲总部设在香港。2005年8月,施普林格在北京成立代表处。.

新!!: 数据挖掘和施普林格科学+商业媒体 · 查看更多 »

文本挖掘

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。 文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。.

新!!: 数据挖掘和文本挖掘 · 查看更多 »

支持向量机

在机器学习中,支持向量机(support vector machine,常简称為SVM,又名支持向量网络)是在分类与迴歸分析中分析数据的監督式學習模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法建立一个将新的实例分配给两个类别之一的模型,使其成为非概率线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。 除了进行线性分类之外,SVM还可以使用所谓的有效地进行非线性分类,将其输入隐式映射到高维特征空间中。 当数据未被标记时,不能进行监督式学习,需要用非監督式學習,它会尝试找出数据到簇的自然聚类,并将新数据映射到这些已形成的簇。将支持向量机改进的聚类算法被称为支持向量聚类Ben-Hur, Asa, Horn, David, Siegelmann, Hava, and Vapnik, Vladimir; "Support vector clustering" (2001) Journal of Machine Learning Research, 2: 125–137.

新!!: 数据挖掘和支持向量机 · 查看更多 »

数学分析

数学分析(mathematical analysis)区别于其他非数学类学生的高等数学内容,是分析学中最古老、最基本的分支,一般指以微积分学、无穷级数和解析函數等的一般理论为主要内容,并包括它们的理论基础(实数、函数、測度和极限的基本理论)的一个较为完整的数学学科。它也是大学数学专业的一门基础课程。出自《数学辞海(第一卷)》 数学分析研究的內容包括實數、複數、實函數及複變函數。数学分析是由微積分演進而來,在微积分发展至现代阶段中,从应用中的方法总结升华为一类综合性分析方法,且初等微積分中也包括許多數學分析的基礎概念及技巧,可以认为这些应用方法是高等微积分生成的前提。数学分析的方式和其幾何有關,不過只要任一數學空間有定義鄰域(拓扑空间)或是有針對兩物件距離的定義(度量空间),就可以用数学分析的方式進行分析。.

新!!: 数据挖掘和数学分析 · 查看更多 »

数据库

--,簡而言之可視為電子化的檔案櫃——儲存电子檔案的處所,使用者可以對檔案中的資料執行新增、擷取、更新、刪除等操作。 所謂「資料庫」係以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。.

新!!: 数据挖掘和数据库 · 查看更多 »

数据分析

資料分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 資料分析可以处理大量数据,并确定这些数据最有用的部分。本学科近年来的成功,很大程度上是因为制图技术的提高。这些图可以通过直接分析数据,来突出难以捕捉的关系;更重要的是,这些表达方法与基于现象分布的“先验”观念无关,与经典统计方法正相反。 資料分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得資料分析得以推广。資料分析是数学与计算机科学相结合的产物。 若是以固定时间为資料分析的颗粒单位,则称为时间序列分析,是主要作为销售数据商业分析的方法之一。 Category:数据分析 Category:科學方法.

新!!: 数据挖掘和数据分析 · 查看更多 »

数据管理

数据管理,即对数据资源的管理。按照:en:DAMA的定义:“数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序”。这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作(如关系数据库的技术层次上的管理)。 数据管理的常见内容包括.

新!!: 数据挖掘和数据管理 · 查看更多 »

数据集成

数据集成是将不同来源与格式的数据逻辑上或物理上进行集成的过程。传统上,数据集成可以分为两大类方法,即数据仓库和联邦数据库。数据库仓库技术在物理上将分布在多个数据源的数据统一集中到一个中央数据库中;而联邦数据库则仅通过将用户查询翻译为数据源查询来进行逻辑上的数据集成。 Category:数据库.

新!!: 数据挖掘和数据集成 · 查看更多 »

数据清理

数据清理(data cleansing)指删除、更正数据库中错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清理软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式整合数据。.

新!!: 数据挖掘和数据清理 · 查看更多 »

重定向到这里:

数据发掘数据库智识发现数据掘矿知识发掘資料庫知識發現資料挖掘資料採掘資料採礦資料探勘資料開採資訊探勘

传出传入
嘿!我们在Facebook上吧! »