principal component analysis for clustering gene expression data作者是K.Y.Yeung*W.L.Ruzzocomputer science and engineering ,box352350,university of Washington,seattle,wa98195,USA谁来帮我翻译这篇文章啊,搞定了愿意给全部的财富值
来源:学生作业帮助网 编辑:六六作业网 时间:2024/11/16 10:43:30
principal component analysis for clustering gene expression data作者是K.Y.Yeung*W.L.Ruzzocomputer science and engineering ,box352350,university of Washington,seattle,wa98195,USA谁来帮我翻译这篇文章啊,搞定了愿意给全部的财富值
principal component analysis for clustering gene expression data
作者是K.Y.Yeung*W.L.Ruzzo
computer science and engineering ,box352350,university of Washington,seattle,wa98195,USA
谁来帮我翻译这篇文章啊,搞定了愿意给全部的财富值:3262
1L的兄弟,我要的是整篇文章,谢谢。 PDF文件大概有12页,具体数据不是很清楚。 (各位,请不要给我Google翻译的,毕竟那我也能整,谢谢) [email protected]
PS:如果可以,2篇文章200块钱。。。。
那位老师如果可以能否留个联系方式?我愿意重新好好开始翻译。只是的确是因为能力有限,不然我也不会这么干。。。
principal component analysis for clustering gene expression data作者是K.Y.Yeung*W.L.Ruzzocomputer science and engineering ,box352350,university of Washington,seattle,wa98195,USA谁来帮我翻译这篇文章啊,搞定了愿意给全部的财富值
我已经发到你邮箱了
计算机科学与工程,箱子352350,华盛顿,西雅图,wa98195,美国大学
按照单词翻译应该是:华盛顿西雅图的美国大学计算机科学与工程系wa98195号房间的352350箱子。
文章一共多少字?`
http://bioinformatics.oxfordjournals.org/cgi/content/abstract/17/9/763
这里是不是你的原文?
如果是我可以帮你翻译
Principal component analysis for clustering gene expression data
K. Y. Yeung * and W. L. Ruzzo
Computer Science and Engineering, Box 352350, University of Washington, Seattle, WA 98195, USA ...
全部展开
Principal component analysis for clustering gene expression data
K. Y. Yeung * and W. L. Ruzzo
Computer Science and Engineering, Box 352350, University of Washington, Seattle, WA 98195, USA
Received on January 1, 2001 ; revised on May 3, 2001 ; accepted on May 23, 2001
Motivation: There is a great need to develop analytical methodology to analyze and to exploit the information contained in gene expression data. Because of the large number of genes and the complexity of biological networks, clustering is a useful exploratory technique for analysis of gene expression data. Other classical techniques, such as principal component analysis (PCA), have also been applied to analyze gene expression data. Using different data analysis techniques and different clustering algorithms to analyze the same data set can lead to very different conclusions. Our goal is to study the effectiveness of principal components (PCs) in capturing cluster structure. Specifically, using both real and synthetic gene expression data sets, we compared the quality of clusters obtained from the original data to the quality of clusters obtained after projecting onto subsets of the principal component axes.
Results: Our empirical study showed that clustering with the PCs instead of the original variables does not necessarily improve, and often degrades, cluster quality. In particular, the first few PCs (which contain most of the variation in the data) do not necessarily capture most of the cluster structure. We also showed that clustering with PCs has different impact on different algorithms and different similarity metrics. Overall, we would not recommend PCA before clustering except in special circumstances.
收起
计算机科学与工程系,箱352350,华盛顿,西雅图,WA 98195,美国大学
收到2001年1月1日,于2001年5月3日修订;接受了2001年5月23日
动机:有一个非常需要发展的分析方法,分析和利用,在基因表达数据中的信息。由于大量的基因和生物网络的复杂性,集群是一个有益的基因表达数据分析方法的探索。其他的经典技术,如主成分分析(PCA),也被用于分析基因表达数据。使用不...
全部展开
计算机科学与工程系,箱352350,华盛顿,西雅图,WA 98195,美国大学
收到2001年1月1日,于2001年5月3日修订;接受了2001年5月23日
动机:有一个非常需要发展的分析方法,分析和利用,在基因表达数据中的信息。由于大量的基因和生物网络的复杂性,集群是一个有益的基因表达数据分析方法的探索。其他的经典技术,如主成分分析(PCA),也被用于分析基因表达数据。使用不同的数据分析技术和不同的聚类算法,分析集可以导致非常不同的结论相同的数据。我们的目标是研究(电脑捕捉集群结构)的主要部分的效力。具体来说,用真实和合成的基因表达数据集,我们比较了从原始数据的获得上后的主要成分轴子群的质量得到预测集群的质量。
结果:我们的实证研究表明,集群的个人电脑,而不是原来的变量并不一定改善,而且往往降低,集群质量。特别是,前几个电脑(其中包含在数据的变化是大多数)不一定捕捉群集结构最。我们还发现,在电脑集群有不同的算法和不同的相似性度量不同的影响。整体而言,我们不建议之前,除非在特殊情况下集群常设仲裁法院。
收起
http://www.cs.washington.edu/homes/ruzzo/papers/pca-bioinf.pdf
这就是你要的pdf
摘要
动机:有一个非常需要发展的分析方法,分析和利用,在基因表达数据中的信息。由于大量的基因和生物网络的复杂性,集群是一个有益的基因表达数据分析方法的探索。其他的经典技术,如主成分分析(PCA),也被用于分析基因表达数据。使用不同...
全部展开
http://www.cs.washington.edu/homes/ruzzo/papers/pca-bioinf.pdf
这就是你要的pdf
摘要
动机:有一个非常需要发展的分析方法,分析和利用,在基因表达数据中的信息。由于大量的基因和生物网络的复杂性,集群是一个有益的基因表达数据分析方法的探索。其他的经典技术,如主成分分析(PCA),也被用于分析基因表达数据。使用不同的数据分析技术和不同的聚类算法,分析集可以导致非常不同的结论相同的数据。我们的目标是研究(电脑捕捉集群结构)的主要部分的效力。具体来说,用真实和合成的基因表达数据集,我们比较了从原始数据的获得上后的主要成分轴子群的质量得到预测集群的质量。
结果:我们的实证研究表明,集群的个人电脑,而不是原来的变量并不一定改善,而且往往降低,集群质量。特别是,前几个电脑(其中包含在数据的变化是大多数)不一定捕捉群集结构最。我们还发现,在电脑集群有不同的算法和不同的相似性度量不同的影响。整体而言,我们不建议之前,除非在特殊情况下集群常设仲裁法院。
可用性:软件正在开发中。
联系人:kayeecs.washington.edu
补充资料:
http://www.cs.washington.edu/homes/kayee/pca
1介绍和动机
DNA微阵列提供了一个伟大的变化,希望学习
许多基因的同时(兰德,1999年)。大
基因表达数据的数额已经生成的研究人员。
有很大的需要发展的分析方法
分析和利用所载的信息
基因表达数据(兰德,1999年)。由于大
数量基因和生物网络的复杂性,
集群是一个有益的探索性分析技术
基因表达数据。许多聚类算法,
被提出了基因表达数据。例如,(尔埃森
等。,1998)采用了分层的平均变异链接
聚类算法确定合作群体调控酵母
基因。 (本多和亚希尼,1999年)报告取得圆满成功,
其铸造方法。
其他技术,如主成分分析
(PCA)的,也有人提出来分析基因表达
数据。常设仲裁法院(乔利夫,1986年)是一个经典的技术,以减少
由转变设置一个新的数据维数
的变量()设置为主要组成部分总结
特征数据。主成分(能够感染受到良好€™拧)不相关
并下令这样的有次电脑日最大在所有电脑。那个
?
次PC可以被解释为
最大化的方向,预测的变化
数据点,这是一个正交第一
电脑。传统的方法是使用第几台电脑??'s吗??的?
数据分析,因为他们捕捉的变化最
原始数据集。相比之下,过去几年PC的往往是假设
仅捕获剩余“噪音”中的数据。常设仲裁法院
是密切相关的数学技术,即单数
值分解(SVD)。事实上,常设仲裁法院就等于申请
奇异值分解的数据协方差矩阵。最近,
出现了基于SVD的基因表达的申请很大的兴趣
数据,例如,(动态心电图等。,2000)和(改变
等。,2000)。
使用不同的数据分析技术和不同的集群
算法分析同一数据集,可以导致
非常不同的结论。例如,(朱等人。,1998)
查明了该孢子七个联网数据子集
设置使用的层次聚类算法的变种
(埃森等。,1998)。然而,(赖乔杜里等。,2000)
报告说,这七个专题组很差分离
当数据可视化在空间的前两个电脑,
即使他们占超过85%的变异
数据。
PCA和聚类:在集群文学,常设仲裁法院是
有时用于减少数据的维数
设置之前,集群。常设仲裁法院在使用之前,集群希望
分析说,个人电脑的可以“提取”群集结构
数据集。由于PC的是不相关的命令,第一个
一些电脑,其中包含在数据的变化,大都
通常用于聚类分析,例如,(乔利夫等。,
1980)。有一些经验共同规则来选择如何
许多第一次筹委会的保留,但这些规则大多是非正式
和专程(乔利夫,1986)。在另一方面,
是一个理论性的结果显示,前几个电脑可能不会
包含群集信息:假设数据是一种混合物
两个多元正态分布不同
手段,而且具有相同的内联网协方差矩阵,
(张,1983)表明,前几年PC的可能含有较少
簇结构的信息比其他个人电脑的。他还生成
人工例子,有两个集群,和
如果数据点的可视化在两个方面,两
集群不仅完全分隔在第一子
和去年的PC上。
一种激励的例子:一个子集数据的产孢
(477基因)被分为7时间模式(楚
等。,1998)。图1(a)是在这个数据可视化
空间前2个人电脑,其中载有85.9%的变异
在数据中。 7种类型的每一个代表
不同的颜色或不同的形状。七个模式重叠
周围的原产地在图1(1)。但是,如果我们认为
数据点在同一子空间的首3电脑
(含93.2%的数据变化中的图1)款(b),
七模式分离得多。这个例子表明,一个小变化(7.4%的数据)有助于区分
的模式,不同的数字,不同套
电脑捕捉有不同的有效程度集群
结构。因此,非常需要调查
PCA的成效作为预处理步骤聚类分析
在基因表达数据,才可以识别集群
在空间的个人电脑。这份文件是对这种尝试
实证研究。
2我们的方法
我们的目标是实证调查集群效益
基因表达数据使用个人电脑的,而不是原来的
变量。本文基因聚集,因此实验
条件变量。我们的方法是
运行在给定数据集的聚类算法,然后再应用
相同的算法的数据后,预计到它
由两套不同的定义子空间的电脑。的有效性
与原有的资料,并与各套集群
电脑是由评估组,质素
通过比较衡量的聚类结果的客观
外部标准的数据。在我们的实验中,我们
承担集群人数已知和聚类结果
同组的正确数目生产。真实
基因表达数据集的外部条件和合成
在这台实证研究使用的数据。
2.1两个分区之间的协定
为了比较集群对外部条件的结果,
措施的协议是必要的。调整后的兰德指数
(休伯特和Arabie,1985)评估了协议的程度
两帮的对象相同的分区。基于
广泛的经验比较几个这样的措施,
(米利根和库珀,1986)建议的调整兰德
作为协议的衡量指标,即使在比较分区
具有不同的数字集群。
给定一个???????对象集??
??
??
??????,假设??????
??
??
?????? ? ?和? ???
????
??
??
??! “?代表了两种不同的
在对象的分区?这样的和#$&?%? ? $ ?'?(?#)? %? ? )?$ + *?$&,?.-/? 0?)?*?)?,为
?21436?5 38791;:和
“?5”7 = 1?“?/ 1。在我们的例子,一个分区是外部
标准,一个是聚类结果。让@是多少
对那些在分区在同一元素中的对象
?并在同一元素在分区? ,和安倍的数量
成对的对象,在不同的元素分区?和
? 。兰德指数(兰德公司,1971年)仅仅是一小部分
协议,即公元前@ DEAGF?收录到我的JGK。兰德指数介乎
0和1。当两个分区是相同的,兰德指数
是1。与兰德指数的问题是,预期
价值两个随机分区兰德指数不
采取恒定值。调整后的兰德指数(休伯特和
Arabie,1985年)为纠正这一假设的一般形式X9Y Ø $ X [$?!ž?LNXM8O!$ PQ?!MRLNONMRS
Ø \制造资源计划?TVUWM8MRONLS
问$?!TVUWLNM?M8LO $?!LNM8O。其最高值为1和
预期在集群中的随机值为0。正如
兰德指数较高的调整兰德指数意味着更高
对应的两个分区之间。请参阅
我们的网站或补充(杨和Ruzzo,2000)
调整后的兰德指数的详细描述。
2.2个人电脑的子集
出于张的理论成果(张,1983年),我们
想比较与聚类有效性
前几个PC向其他集电脑。特别是,如果
存在一个“最佳”个人电脑是最有效的设置捕捉
簇的结构,这将是有趣的比较
这个“最好”的PC设置性能的传统的智慧,与前几个电脑数据的集群。自从
没有“最好的”PC的设置等是已知的,我们所使用的调整
兰德公司与外部标准的指数,以确定是否成立
个人电脑的集群是有效的。一种方法确定
个人电脑的调整提供了兰德公司的最高指数集
超过所有可能的集合穷举搜索电脑。但是,
穷举搜索是非常密集计算。因此,
我们使用的启发式搜索了一套电脑高
兰德指数调整。
贪婪的方法:一个简单的启发式我们实施
是贪婪的方法,它类似于向前顺序
搜索算法(阿哈和Bankert,1996)。让??是个人电脑的组成集群,和最低数
?
是
数在数据的实验条件。
?这种方法从支持一套穷举搜索
对?个人电脑最大的调整兰德指数。记为
PC的作为?最佳集合X??。
?对于每个?乙?发展???F
??
?
?
,
- 每个组件
? ? ?
??? “不是吗?XP吗??
预计所有基因上的数据
组件?XP吗?? #?? ? ?
??? “?是群集的,
兰德,调整后的指数计算。
调整后的最高记录兰德指数
对所有可能的
? ???
?
? “。
- ?X是最大组成部分的工会
兰德指数和调整?XP吗??。
修改后的贪婪的方法:修改后的贪婪的方法
需要额外的整数参数,
?
,代表
最佳的解决方案,以配合每个搜索
一步。记为最佳
?
组件设置为
?\? X上吗?
??
??
Ñ?? ? ? X上吗? X上吗?,其中? ??
??
??
?
。这种方法也
同一个彻底搜查开始??电脑与最高
兰德指数调整。但是,
?
套组件
其中获得最高
?
兰德指数调整存储。为了
每个(其中?乙?发展??F
??
?
?
)和(在哪里?X 3美元??
????
?
),一个附加组件,不
已? X $ P +?被添加到组件的设置,集
与扩展的组件集数据集群,
兰德,调整后的指数计算。顶端
?
套
组件,达到最高的调整兰德指数
存储在
?十,修改后的贪婪的方法允许
查找在为一套组件寻找更多的选择
可以实现高兰德指数调整。请注意,当
? ? ?
,修改后的贪婪的方法是相同的简单
贪婪的方法,当
? ?余? K时,修改贪婪
方法是减少到彻底的搜索。因此,选择
之间的运行时间和折中的解决方案的质量。我?ñ
我们的实验,
?
被设置为3。
2.3综述
给定一个基因表达和基因数据集
?
实验
条件下,我们的评估方法包括
以下步骤:
1。阿聚类算法应用到给定的数据集,
和兰德指数的调整与外部标准
计算。
2。常设仲裁法院是适用于给定的数据集。同样的聚类
算法用于第一电脑(其中
? ?
??
??
?
)。调整后的兰德指数的计算
对使用结果的聚类每首电脑。
3。同样的聚类算法应用到个人电脑的设置
计算与贪婪,贪婪的修改方法。
2.4随机PC和随机预测
作为一个控制,我们还调查了对质量的影响
从随机集取得集群电脑。多套
随机电脑在我们的实验(30)选择计算
调整后的兰德公司的平均值和标准差
指数。
我们还比较了聚类结果的质量
随机PC向的随机正交推算,
数据。同样,多套(30)随机正交投影
被选为计算平均值和标准偏差。
3数据集
我们使用外部标准中的两个基因表达数据集,
和3个合成数据集,以观成效
主成分分析。单词类是指一组在外部标准
这是用来评估聚类结果。这个词群
是指根据聚类算法获得的集群。我们假设
两个类和集群是数据,即分区,
每一个基因被分配到一个类准确和精确的一个
群集。
3.1基因表达数据集
卵巢数据:对获得的数据子集卵巢
(斯库默尔等。,1999)和(斯库默尔,2000年)被使用。那个
卵巢数据集生成杂交随机选择
基因的以膜阵列。卵巢的子集
我们使用的数据包含235无性系和24日组织样本,7
其中来源于正常组织,从血液样本4,
其余13个来自不同的卵巢癌
恶性肿瘤阶段。该组织实验样本
条件。 235克隆测序,发现
对应于4个不同的基因。无性系数字
收起
下载看过,763PDF文件,有难度,是生物专业吧
那篇文章我看了下 可以翻译 不过我的价码保证是你个人承受不起的
所以我建议你尝试着对重点语段 进行有选择的翻译 如果那样 我还是乐意从旁指点你的
MVP21MVP作为一个青年学生 你太懒惰了!!!
CC
计算机科学与工程,box352350,华盛顿,西雅图,wa98195,美国大学