210 likes | 384 Views
确定型正则表达式的判定和诊断. 姓名 :陆平 指导老师 :陈海明. 1 基本概念 2 研究现状 3 目前工作 4 今后方向 5 心得体会. 1/18. 1 基本概念. 1.1 XML 简介 XML(eXtensible Markup Language) 是一种常用的数据交换文档格式 . XML schema 则规定了 XML 文档的格式 . XML schema 中要求的出现的正则表达式是确定型的. 2/18. 1 基本概念. 1.2 确定型正则表达式
E N D
确定型正则表达式的判定和诊断 姓名 :陆平 指导老师 :陈海明
1 基本概念 2 研究现状 3 目前工作 4 今后方向 5 心得体会 1/18
1 基本概念 1.1 XML简介 XML(eXtensible Markup Language) 是一种常用的数据交换文档格式.XML schema则规定了XML文档的格式.XML schema中要求的出现的正则表达式是确定型的. 2/18
1 基本概念 1.2确定型正则表达式 一个正则表达式E是确定型的(deterministic) 当且仅当对所有标号的字u ,v ,w 以及所有的符号x , y 有如下条件: uxv,uyw ∈ L(E’) , x ≠y→x 〞≠ y〞。 3/18
1 基本概念 1.2.1例子 非确定型表达式:a*a 标号表达式:a1*a2 标号的句子:a1a2,a2 对于句子中第一个a在不向后看的情况下,既可以匹配表达式中a1也可以匹配a2 确定型表达式: aa* 标号表达式:a1a2* 标号的句子 a1,a1a2,a1a2a2,… 句子中每一个a都有唯一的表达式中的标号与之对应 4/18
1 基本概念 1.2.2 确定型语言 一个语言, 如果存在一个确定型表达式表示这个语言,我们就称这个语言是确定型的。比如上边的例子a*a. 5/18
1 基本概念 1.3带数字出现的正则表达式 带数字出现的表达式是指在表达式中允许出现形式如的表达式。这个表达式表示的语言包含两个句子{a,aa}. 即字母a可以出现一次或者两次。 6/18
1 基本概念 1.3带数字出现的正则表达式 由于,所以当考虑带数字出现的表达式的时候,不考虑星号操作符。 7/18
1 基本概念 1.4带数字出现的表达式的强确定性 强确定性形式定义比较复杂,在此就不给出了,通俗的说就是在匹配的时候不仅要求位置是确定的,而且路径也是唯一的 8/18
1 基本概念 1.4带数字出现的表达式的强确定性 如这个表达式是确定型的,但不是强确定型的。因为对于句子aaaa而言,我们可以由生成,也可以由生成aa,再由外部操作符生成aaaa. 9/18
2研究现状 2.1 研究方向 目前针对确定型表达式主要有两个研究方向: 1判断所给的表达式是否是确定型的表达式 2判断给出的表达式所对应的语言是否是确定型的 10/18
2研究现状 2.2 一般表达式的研究 [1]利用表达式的Glushkov自动机给出了一个线性的算法,判断给出的表达式是否是确定型的 [2]给出算法判断表达式对应的语言是否是确定型的,当对应的语言是确定型的,给出一个相应的确定型表达式。但这个方法给出确定型表达式相对原表达式而言却是指数增长的。 [3]证明了判断一个表达式对应的语言是否是确定型的是PSPACE-hard. 11/18
2研究现状 2.3带数字出现的表达式的研究 [4]给出了一个线性算法来判断给定的表达式是否是确定型的。 [7]证明了即使使用带数字出现的表达式,仍然存在一个语言使得生成的表达式的长度是。 12/18
2研究现状 2.4 强确定型表达式的研究 [5]给出强确定型的表达式的定义, 并证明了当字母表大小大于1时,强确定型语言是严格包含于确定型语言中的. 还给出了一个三次方的算法判断一个表达式是否是强确定型的。 13/18
3 目前工作 目前的工作主要是将判定确定型和强确定型表达式的算法提高到了线性的. 14/18
3 目前工作 随机数据实验结果 15/18
3 目前工作 特殊数据实验结果 16/18
4 今后方向 1看一看能否将目前的方法扩展到判断确定型语言或强确定型语言上。 2 希望能从代数和逻辑的角度来分析这个问题。 17/18
5 心得体会 现在主要遗憾在一年级的时候没有多多参加一些感兴趣的讨论班和课程。现在要用上了再自己看就比较费力。所以希望大家能多看多学点东西,不管目前用不用得上。 最后,祝大家能尽快融入实验室的学习和生活。 18/18
参考文献 [1] A. Brüggemann-Klein, Regular expressions into finite automata, Theoretical computer Science 120(1993) 197-213 [2] A. Brüggemann-Klein and D.Wood, One-unambiguous regular languages, Information and Computation, 142(2):182-206, 1998. [3] Geert Jan Bex, Wouter Gelade, Wim Martens, and Frank Neven,Simplifying XML schema effortless handling of nondeterministic regular expressions,SIGMOD ConferenceACM (2009) , p. 731-744. [4] P.Kilpeläinen, Checking determinism of XML Schema content models in optimal time, Informat. Systems(2010), doi:10.1016/j.is.2010.10.001 [5] W.Galede, M.Gyssens, W. Martens, Regular expressions with counting: weak versus strong [6] C.Koch and S.Scherzinger, Attribute grammars for scalable query processing on XML streams, VLDB journal, 16(3):317-342,2007. [7] Wouter Gelade, Succinctness of regular expressions with interleaving, intersection and counting,Theor. Comput. Sci. 411(31-33): 2987-2998 (2010)