文档详情

有穷自动机的原理及应用.docx

发布:2017-05-09约6.44千字共43页下载文档
文本预览下载声明
有穷自动机的原理及应用 雷鹏 rockeet@163.com 2014-07-15 大纲 基本概念 DFA 最小化:概念 DFA 最小化:算法 AC 自动机(多模匹配) DFA 的实现 API 与工具箱 DFA 与 NFA 转移目标是一个状态集合,可能包含多个状态 DFA 到 NFA 的转化 ADFA Acyclic DFA 无环自动机 无环自动机只能表达有限的字符串集合 Trie: 最简单,最大的 ADFA MinADFA: 最小化的无环自动机 内存需求小,极端情况下压缩率是指数的 随着集合的增大,MinADFA 可能反而更小 后缀自动机: 后缀树的泛化 典型应用 Regular Expression 正则表达式 Lexical Analyzing 词法分析 Pattern Matching 模式匹配 精确匹配,前缀匹配 多模匹配(AC自动机),多正则匹配 Dictionary Compressing 词表压缩 自动机最小化,字典序计算 DFA 的最小化:等价同构 DFA 等价 DFA表达的语言相同 等价的DFA状态数可能不同 状态数最小的那个DFA称为最小的DFA 更小的 DFA 需要的内存更小 DFA 同构 状态数相等,表达的语言相同 对状态编号做一置换后,完全等同 规格化的DFA:状态编号为从初始状态执行深度优先遍历的序号 0~63 的二进制串 未最小化的 Tree 形状的 DFA (Trie) 最小化的 DAG 形状的 DFA (DAWG) 未最小化的 Tree 形状的 DFA (Trie) 最小化的 DAG 形状的 DFA (DAWG) 0~62 的二进制串 相当于将 n个状态 压缩到 O(log(n)) 个状态 极端的例子:字符串 “1” ~ “99999” 未最小化的 Tree 形状的 DFA (Trie) 最小化的 DAG 形状的 DFA (DAWG) int int_t intmax_t int8_t int16_t int32_t int64_t uint uint_t uintmax_t uint8_t uint16_t uint32_t uint64_t DFA 的最小化算法 Hopcroft 算法原理 Myhill–Nerode 等价 对任意输入,同一分区(子集)中两个状态 p, q的行为相同,则 p, q 是 Myhill–Nerode 等价的 行为相同即:对任意w,δ(p,w) 与 δ(q,w)要么都是终止状态,要么都不是终止状态 Partition Refinement 可直译为分区细化 Partition Refinement 是 Hopcroft 算法的一个关键操作,该操作使用一个函数将集合的当前切分中的每个分区进行再切分,直到不能继续切分 Hopcroft 算法伪代码 P := {F, Q \ F }; // \ 表示集合减法,Q表示所有状态的集合,F 表示终止状态集合 W := {F, Q \ F }; // 此伪代码来源于维基百科,但维基百科此行有误 // Q \ F 也必须加入 W (WaitingSet) // 其它一些论文中将 W 初始化为 { min(F, Q \ F) }, 也不对 while (W is not empty) do choose and remove a set A from W for each c in ∑ do let X be the set of states for which a transition on c leads to a state in A for each set Y in P for which X ∩ Y is nonempty do replace Y in P by the two sets X ∩ Y and Y \ X if Y is in W replace Y in W by the same two sets else add min( X ∩ Y, Y \ X ) to W Y X Hopcroft 算法实现 逆自动机 一般DFA的逆是一个NFA,结构比较复杂 Trie的逆是一棵倒长的树,结构非常简单 用 smallmap 收集反向转移 双向链表(插入、删除均为 O(1) ) 用数组下标做链接 集合的一个切分可用一个排列(permut
显示全部
相似文档