《詞法分析正則表達式課件》由會員分享,可在線閱讀,更多相關《詞法分析正則表達式課件(21頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、,啊,啊,*,編譯原理,*,詞法分析正則表達式,授課:胡靜,12/15/2024,2004年12月28日,1,編譯原理,詞法分析正則表達式10/9/20232004年12月28,目錄,編譯器的結構,編譯的例子,什么是詞法分析,如何編寫一個詞法分析器,正則表達式用來描述tokens,編寫一個詞法分析器的生成器,12/15/2024,2,編譯原理,目錄編譯器的結構10/9/20232編譯原理,編譯器的應用模型,出,錯,處,理,語法分析程序,語義分析程序,目標代碼生成程序,詞法分析程序,中間代碼生成程序,代碼優(yōu)化程序,表,格,管,理,編譯的前端,(Front End),編譯的后端,(Back End
2、),12/15/2024,3,編譯原理,編譯器的應用模型出語法分析程序語義分析程序目標代碼生成程序詞,以語法分析器為核心的編譯器模型,語法分析器,詞法分析器,中間代碼生成器,語義分析器,一部分中間代碼,輸入字符串,程序入口,初始化工作,12/15/2024,4,編譯原理,以語法分析器為核心的編譯器模型語法分析器詞法分析器中間代碼生,一個簡單的編譯器結構,12/15/2024,5,編譯原理,一個簡單的編譯器結構10/9/20235編譯原理,這個結構是如何進行工作的,12/15/2024,6,編譯原理,這個結構是如何進行工作的10/9/20236編譯原理,這個結構是如何進行工作的,12/15/20
3、24,7,編譯原理,這個結構是如何進行工作的10/9/20237編譯原理,第一步:詞法分析,12/15/2024,8,編譯原理,第一步:詞法分析10/9/20238編譯原理,tokens,Identifiers:x y11 elsen _i00,Integers:2 1000 -500 5L,Floating point:2.0 0.00020 .02 1.1e5 0.e-10,Strings:“x”“He said,“Are you?”,Comments:/*dont change this*/,Keywords:if else while break,Symbols:+*+=,12/15/
4、2024,9,編譯原理,tokensIdentifiers:x,特別的詞法分析器,手寫代碼來產(chǎn)生tokens,如何讀取標識符tokens?,12/15/2024,10,編譯原理,特別的詞法分析器手寫代碼來產(chǎn)生tokens10/9/2023,Look-ahead Character,一次掃描一個字符,使用向前看字符(next)的方法來決定將要讀到的是什么類型的token,以及當前這個token的結尾在何處。,12/15/2024,11,編譯原理,Look-ahead Character一次掃描一個字符10,特別的詞法分析器:高層循環(huán),12/15/2024,12,編譯原理,特別的詞法分析器:高層循
5、環(huán)10/9/202312編譯原理,問題的提出,如果只向前看一個字符,不能夠確定我們將要讀入的是哪種類型的token,如果token的開頭是“i”,那么它一定是標識符么?,如果token的開頭是“2”,那么它一定是一個整型的常數(shù)么?,如果我們通過上面的類似“插入”式的方法來寫識別token的程序,這樣的程序不容易寫正確,而且也不容易維護,因此需要一個更加有原理性的方法:詞法分析器的生成器,可以自動產(chǎn)生有效的詞法分析器。(例如lex,flex,Jlex),一般說來,沒有限制的向前看是必要的,12/15/2024,13,編譯原理,問題的提出如果只向前看一個字符,不能夠確定我們將要讀入的是哪,一些問題
6、,如何明確的描述tokens,2.e0 20.e-01 2.0000,“”“x”“”“”,如何將文本分割成tokens,if(x=0)a=x1;,if(x=0)a=x1;,12/15/2024,14,編譯原理,一些問題如何明確的描述tokens10/9/202314編譯,如何描述tokens,我們可以使用,正則表達式,來描述程序設計語言中的tokens,正則表達式(RE,Regular Expression)的定義如下:,a ordinary character stands for itself,the empty string,R|S either R or S(alternation),
7、where R,S=RE,RS R followed by S(concatenation),where R,S=RE,R*concatenation of a RE R zero or more times,(R*=|R|RR|RRR|RRRR),在實際形式中,會有優(yōu)先級的限制,因此可以加入一些括號。,12/15/2024,15,編譯原理,如何描述tokens我們可以使用正則表達式來描述程序設計語言,簡單的例子,正則表達式R描述的字符串的集合表示為L(R),L(R)=由R定義的“語言”,L(abc)=abc,L(hello|goodbye)=hello,goodbye,L(1(0|1)*)=
8、所有的非零二進制數(shù),我們可以用正則表達式來定義每種類型的token,12/15/2024,16,編譯原理,簡單的例子正則表達式R描述的字符串的集合表示為L(R)10/,一些RE的簡寫,R,+,one or more strings from L(R):R(R*),R?,optional R:(R|),abce,one of the listed characters:(a|b|c|e),a-z,one character from this range:(a|b|c|d|e|y|z),ab,anything but one of the listed chars,a-z,one charact
9、er not from this range,12/15/2024,17,編譯原理,一些RE的簡寫R+10/9/202317編譯原理,簡單的例子,正則表達式,digit=0-9,posint=digit+,int=-?posint,real=int(|(.posint),=-?0-9+(|(.0-9+),a-zA-Z_a-zA-Z0-9_*,在L(R)中的字符串,“0”“1”“2”“3”,“8”“412”,“-42”“1024”,“-1.56”“12”“1.0”,C identifiers,這種簡寫方式不支持遞歸,12/15/2024,18,編譯原理,簡單的例子正則表達式在L(R)中的字符串這
10、種簡寫方式不支持遞,如何切分文本,只有RE是不夠的,還需要一些進行選擇的規(guī)則,大部分的語言,優(yōu)先選擇最長的匹配,當最長匹配長度相同時,由優(yōu)先級決定,REs+優(yōu)先級+最長匹配規(guī)則=詞法分析器的定義,12/15/2024,19,編譯原理,如何切分文本只有RE是不夠的,還需要一些進行選擇的規(guī)則10/,小結,詞法分析器將文本流轉換成tokens,特殊的詞法分析器不容易寫的正確,而且不易維護,對大部分語言來說,合法的tokens都可以由正則表達式方便的精確的定義。,12/15/2024,20,編譯原理,小結詞法分析器將文本流轉換成tokens10/9/20232,Thanks for your time!,Questions&Answers,12/15/2024,21,編譯原理,10/9/202321編譯原理,