文档详情

输出关系多层前馈神经网络.ppt

发布:2017-09-09约4.74千字共44页下载文档
文本预览下载声明
* 2、 2000年全国竞赛A题 人类基因组计划中DNA全序列草图是由4个字符A,T,C,G按一定顺序排成的长约30亿的字符序列,其中没有“断句”也没有标点符号.虽然人类对它知之甚少,但也发现了其中的一些规律性和结构.例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸.又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果.此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等.这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的.目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象.作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)请从20个已知类别的人工制造的序列(其中序列标号1~10 为A类,11~20为B类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好.然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21~40)进行分类,把结果用序号(按从小到大的顺序)标明他们的类别(无法分类的不写入) 2)同样方法对182个自然DNA序列(他们都较长)进行分类,像1)一样地给出分类结果. 已知的人工序列 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg? 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga? 。。。。。。。。 40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt? 网络构建:输入为特征,期望输出为类别:0.1或0.9 网络的训练及检验: 在已知类别序列1~20中,取A类前7个序列(1~7)和B类前7个序列(11~17)作为训练集P_train,序列8~10、18~20作为测试集P_test.对BP/RBF/PNN网络进行训练,给定样本总体误差标准为10^(-5).当网络学习收敛于给定的标准后,用测试集进行分类检验,考察这三种网络性能优劣,选择性能最好的网络进行分类。 网络进行分类 将标号21~40的特征输入训练好的网络,输出即为类别 Utilizing Clustering Methods for Forecasting Pattern Sequence Forecasting (PSF) PSF is a forecasting method mixing traditional regression methods (such as moving average (MA) and auto-regression (AR)) with clustering methods, such as Kmeans and EM PSF can achieve extremely high forecasting results in electricity consumption forecasting Electricity Power Consumption Forecasting Daily Power Consumption Variation Pattern Sequence Forecasting (PSF) Step 1: Pre-processing Data (Re-organizing table) day1 1st hour 2nd hour … Class1 day2 Class2 day3 Class3 Selecting the number of Clusters Distribution of Weekdays for Clusters Misclassification by Kmeans Means of Daily Electricity Consumption Pattern Sequence Forecasting (PSF) Predictions 人工神
显示全部
相似文档