数据挖掘和遗传学

数据挖掘和遗传学之间的区别

数据挖掘 vs. 遗传学

数据挖掘（data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。除了原始分析步骤，它还涉及到数据库和数据管理方面、、模型与推断方面考量、兴趣度度量、复杂度的考虑，以及发现结构、可视化及在线更新等后处理。数据挖掘是“資料庫知識發現”（KDD）的分析步骤。数据挖掘：实用机器学习技术及Java实现》一书大部分是机器学习的内容。这本书最初只叫做“实用机器学习”，“数据挖掘”一词是后来为了营销才加入的。通常情况下，使用更为正式的术语，（大规模）数据分析和分析学，或者指出实际的研究方法（例如人工智能和机器学习）会更准确一些。数据挖掘的实际工作是对大规模数据进行自动或半自动的分析，以提取过去未知的有价值的潜在信息，例如数据的分组（通过聚类分析）、数据的异常记录（通过异常检测）和数据之间的关系（通过关联式规则挖掘）。这通常涉及到数据库技术，例如。这些潜在信息可通过对输入数据处理之后的总结来呈现，之后可以用于进一步分析，比如机器学习和预测分析。举个例子，进行数据挖掘操作时可能要把数据分成多组，然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤，但是它们确实属于“資料庫知識發現”（KDD）过程，只不过是一些额外的环节。类似词语“”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样（可能）过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。. 遗传学是研究生物体的遗传和变异的科学，是生物学的一个重要分支Hartl D, Jones E (2005)。史前时期，人们就已经利用生物体的遗传特性通过选择育种来提高谷物和牲畜的产量。而现代遗传学，其目的是寻求了解遗传的整个过程的机制，则是开始于19世纪中期孟德尔的研究工作。虽然孟德尔并不知道遗传的物理基础，但他观察到了生物体的遗传特性，某些遗传单位遵守简单的统计学规律，这些遗传单位现在被称为基因。基因位于DNA上，而DNA是由四类不同的核苷酸组成的链状分子，DNA上的核苷酸序列就是生物体的遗传信息。天然DNA以双链形式存在，两条链上的核苷酸互补，而每一条链都能够作为模板来合成新的互补链。这就是生成可以被遗传的基因的复制方式。基因上的核苷酸序列可以被细胞翻译以合成蛋白质，蛋白质上的氨基酸序列就对应着基因上的核苷酸序列。这种对应性被称为遗传密码。蛋白质的氨基酸序列决定了它如何折叠成为一个三维结构，而蛋白质结构则与它所发挥的功能密不可分。蛋白质执行细胞中几乎所有的生物学进程来维持细胞的生存。DNA上的一个基因的改变可以改变其编码的蛋白质的氨基酸，并可能改变此蛋白质的结构和功能，进而对细胞甚至整个生物体造成巨大的影响。虽然遗传学在决定生物体外形和行为的过程中扮演着重要的角色，但此过程是遗传学和生物体所经历的环境共同作用的结果。例如，虽然基因能够在一定程度上决定一个人的体重，人在孩童时期的所经历的营养和健康状况也对他的体重有重大影响。.

之间数据挖掘和遗传学相似

数据挖掘和遗传学有（在联盟百科）2共同点: 统计学，生物信息学。

统计学

统计学是在資料分析的基础上，研究测定、收集、整理、归纳和分析反映數據資料，以便给出正确訊息的科學。這一门学科自17世纪中叶产生并逐步发展起来，它廣泛地應用在各門學科，從自然科学、社會科學到人文學科，甚至被用於工商業及政府的情報決策。隨著大数据(Big Data)時代來臨，統計的面貌也逐漸改變，與資訊、計算等領域密切結合，是資料科學(Data Science)中的重要主軸之一。譬如自一組數據中，可以摘要並且描述這份數據的集中和離散情形，這個用法稱作為描述統計學。另外，觀察者以數據的形態，建立出一個用以解釋其隨機性和不確定性的數學模型，以之來推論研究中的步驟及母體，這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學则是討論背後的理論基礎的學科。.

数据挖掘和统计学 · 统计学和遗传学 · 查看更多 »

生物信息学

生物信息學（bioinformatics）利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。目前主要的研究方向有：序列比对、序列組裝、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测，以及建立进化模型。生物学技术往往生成大量的嘈杂数据。与数据挖掘类似，生物信息学利用数学工具从大量数据中提取有用的生物学信息。生物信息学所要处理的典型问题包括：重新組裝在霰弹枪定序法测序过程中被打散的DNA序列，从蛋白质的氨基酸序列预测蛋白质结构，利用mRNA微阵列或质谱仪的数据检验基因调控的假说。某些人将计算生物学作为生物信息学的同义词处理；但是另外一些人认为计算生物学和生物信息学应当被当作不同的条目处理，因为生物信息学更侧重於生物学领域中计算方法的使用和发展，而计算生物学强调应用信息学技术对生物学领域中的假说进行检验，并尝试发展新的理论。生物信息学可以定义为对分子生物学中两类信息流的研究：.

数据挖掘和生物信息学 · 生物信息学和遗传学 · 查看更多 »

上面的列表回答下列问题

什么数据挖掘和遗传学的共同点。
什么是数据挖掘和遗传学之间的相似性