目录
信息可视化
信息可视化(Information visualization,infovis)是对抽象数据进行(交互式的)可视化表示以增强人类感知的研究。抽象数据包括数值和非数值数据,如文本和地理信息。然而,信息可视化不同于科学可视化:“信息可视化侧重于选取的空间表征,而科学可视化注重于给定的空间表征”。.
查看 决策树和信息可视化
信息系统
信息系统或--(Information Systems),從技術上說就是為了支持組織決策和控製而收集(或獲取)、處理、存儲、分配信息的一組相互關聯的組件。除了支持決策、協作和控制,信息系統也可用來幫助經理和工人分析解決問題,使複雜性可視化,以及創造新的產品,從商業角度看,一個信息系統是一個用於解決環境提出的挑戰的、基於信息技術的組織管理方案。通常用「信息系統」這個詞時,特指依賴於計算機技術的信息系統。 一个基于计算机的信息系统是以计算机软件、硬件、存储和通訊等技术为核心的人机系统 信息系統是由一系列相互關聯的組件構成,是通過信息的收集,處理,存儲及發佈為組織決策和組織控制提供支持的系統。信息系統包括組織內部及其周邊環境中所有重要人員,地理位置,和事物的相關信息。來自《Management Information Systems Managing The Digital Firm》.
查看 决策树和信息系统
判定器
在可计算性理论中,总是停机的机器也叫做判定器(Sipser,1996年)或全图灵机(Kozen,1997年)是对所有输入总是停机的图灵机。 因为它总是停机,这个机器有能力判定给定字符串是否是一个形式语言的成员。可由这种机器判定的语言类精确的是递归语言的集合。但是由于停机问题,判定任意图灵机是否在任意输入上停机的问题自身是不可判定的判定问题(參見哥德爾不完備定理)。.
查看 决策树和判定器
决策树学习
统计学,数据挖掘和机器学习中的决策树训练,使用决策树作为预测模型来预测样本的类标。这种决策树也称作分类树或回归树。在这些树的结构里, 叶子节点给出类标而内部节点代表某个属性。 在决策分析中,一棵决策树可以明确地表达决策的过程。在数据挖掘中,一棵决策树表达的是数据而不是决策。本页的决策树是数据挖掘中的决策树。.
查看 决策树和决策树学习
C4.5算法
C4.5算法是由开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。 C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。.
查看 决策树和C4.5算法
编辑器之战
编辑器之战是指计算机编程领域内,两类文本编辑器vi(以及衍生版本)和Emacs用户之间的对抗冲突。这已经成为黑客文化和自由软件社区文化的一部分。 战火在两群用户之间多次点燃,他们互相蔑视,坚信自己的选择才是最完美的。相比其他的IT领域战争(如浏览器大战、操作系统之争、编程语言之争、代码缩进风格之战),编辑器的选择其实通常只是个人问题。.
查看 决策树和编辑器之战
语音识别
语音识别(speech recognition;語音辨識/言語辨別)技术,也被称为自动语音识别(Automatic Speech Recognition, ASR)、電腦語音識別(Computer Speech Recognition)或是語音轉文本識別(Speech To Text, STT),其目标是以電腦自動将人类的语音内容转换为相應的文字。与及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。 语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。.
查看 决策树和语音识别
ID3算法
ID3算法(Iterative Dichotomiser 3 迭代二叉树3代)是一个由Ross Quinlan发明的用于决策树的算法。 这个算法是建立在奥卡姆剃刀的基础上:越是小型的决策树越优于大的决策树(简单理论)。尽管如此,该算法也不是总是生成最小的树形结构。而是一个启发式算法。奥卡姆剃刀阐述了一个信息熵的概念: 这个ID3算法可以归纳为以下几点:.
查看 决策树和ID3算法
ROC曲线
在信号检测理论中,接收者操作特征曲線(receiver operating characteristic curve,或者叫ROC曲线)是一种坐標圖式的分析工具,用於 (1) 选择最佳的信號偵測模型、捨棄次佳的模型。 (2) 在同一模型中設定最佳閾值。 在做決策時,ROC分析能不受成本/效益的影響,給出客觀中立的建議。 ROC曲线首先是由二战中的电子工程师和雷达工程师发明的,用来偵测战场上的敌军載具(飛機、船艦),也就是信号检测理论。之后很快就被引入了心理学来进行信号的知觉检测。數十年來,ROC分析被用於医学、无线电、生物學、犯罪心理學领域中,而且最近在机器学习(machine learning)和数据挖掘(data mining)领域也得到了很好的发展。.
查看 决策树和ROC曲线
SPSS Modeler
IBM SPSS Modeler 是 IBM 公司的一款数据挖掘与预测分析软件。用户可以通过可视化的界面来调用决策树(ID3)和神经网络(BP)等统计和数据挖掘算法建立,而不必进行编程,也不必知道这些算法的内在原理,从而降低了数据分析工作的难度。.
条件概率
本文定义了表征两个或者多个随机变量概率分布特点的术语。 条件概率(conditional probability)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。 联合概率表示两个事件共同发生的概率。A与B的联合概率表示为P(A \cap B)或者P(A, B)或者P(AB)。 边缘概率是某个事件发生的概率。边缘概率是這樣得到的:在聯合概率中,把最終結果中不需要的那些事件合并成其事件的全概率而消失(對离散隨机變量用求和得全概率,對連續隨机變量用積分得全概率)。這稱為邊緣化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。 需要注意的是,在这些定义中A与B之间不一定有因果或者时间顺序关系。A可能会先于B发生,也可能相反,也可能二者同时发生。A可能会导致B的发生,也可能相反,也可能二者之间根本就没有因果关系。 例如考虑一些可能是新的信息的概率条件性可以通过贝叶斯定理实现。.
查看 决策树和条件概率
汉语拼音
汉语拼音(Hànyǔ Pīnyīn),簡稱为拼音,是一種以拉丁字母作普通话(現代標準漢語)標音的方案,為目前中文羅馬拼音的國際標準規範。汉语拼音在中国大陆作为基础教育内容全面使用,是义务教育的重要内容。在海外,特别是常用現代標準漢語的地区如新加坡、马来西亚、菲律宾和美国唐人街等,目前也在汉语教育中进行汉语拼音教学。臺灣自2008年開始,中文譯音使用原則也採用漢語拼音,但舊護照姓名和部分地名仍採用舊式威妥瑪拼音。 汉语拼音同时是将汉字转写为拉丁字母的规范方式。《中华人民共和国国家通用语言文字法》第十八条规定:“《汉语拼音方案》是中国人名、地名和中文文献罗马字母拼写法的统一规范,并用于汉字不便或不能使用的领域。”汉语拼音也是国际普遍承认的汉语普通话拉丁转写标准。国际标准ISO 7098(中文罗马字母拼写法)写道:“中华人民共和国全国人民代表大会(1958年2月11日)正式通过的汉语拼音方案,被用来拼写中文。转写者按中文字的普通话读法记录其读音。”无论是中国大陆的规范还是国际标准,都明确指出了汉语拼音的性质和地位,即汉语普通话的拉丁拼写法或转写系统,而非汉语正寫法或汉语的文字系统。汉语拼音字母只是对方案所用拉丁字母个体的称谓,并不意味着汉语拼音是一种拼音文字(全音素文字)。.
查看 决策树和汉语拼音
机器学习
机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。 机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。.
查看 决策树和机器学习
数据挖掘
数据挖掘(data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“資料庫知識發現”(KDD)的分析步骤。数据挖掘:实用机器学习技术及Java实现》一书大部分是机器学习的内容。这本书最初只叫做“实用机器学习”,“数据挖掘”一词是后来为了营销才加入的。通常情况下,使用更为正式的术语,(大规模)数据分析和分析学,或者指出实际的研究方法(例如人工智能和机器学习)会更准确一些。 数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息,例如数据的分组(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联式规则挖掘)。这通常涉及到数据库技术,例如。这些潜在信息可通过对输入数据处理之后的总结来呈现,之后可以用于进一步分析,比如机器学习和预测分析。举个例子,进行数据挖掘操作时可能要把数据分成多组,然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤,但是它们确实属于“資料庫知識發現”(KDD)过程,只不过是一些额外的环节。 类似词语“”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样(可能)过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。.
查看 决策树和数据挖掘
手势识别
在计算机科学中,手势识别是通过数学算法来识别人类手势的一个议题。手势识别可以来自人的身体各部位的运动,但一般是指脸部和手的运动。目前面部表情识别及手势识别成为研究热点。大多数方法采用相机基于计算机视觉算法解释手語。然而,识别人的姿势,步态,行为也是手势识别的一个分支。手势识别可以认为是让计算机理解人体肢体语言的一种手段,因此,人机交互不仅仅是文字接口或者用鼠标键盘控制的用户图像界面,会有更多丰富的途径。.
查看 决策树和手势识别