一个简单的四则运算的解释器
编译过程
- 词法分析
- 语法分析
- 语义分析
- 生成中间代码
- 优化
- 生成目标代码
其中,1~3只跟语言的语法有关,跟机器目标无关,所以又被称为前端,指对程序代码的分析和理解的过程。
词法分析
如同读文章一样,文章是由一个个中文单词组成的。在程序中也一样,只不过这里不叫单词,叫“语法记号”(Token)。
1 | function main( age = 30) { |
上述代码,我们会先识别出const,let,if else 等关键字,age、target等标识符(变量),+,=,>=等操作符,这些都是token。
词法分析大多数情况下是使用状态机来实现的释义详见浏览器工作原理
分析规则
- 识别 age 这样的标识符。以字母开头后面跟数字/字符/下划线,遇到第一个不是数字/下划线/字符时结束;
- 识别 >= 这样的操作符。 当识别到 > 字符时,会判断下一个字符是空格/ = / > 用于区分是要进入 GT (Greater Than)/ 大于等于 (Greater Equal)/ 位运算
- 识别30这样的数字字面量。 当遇到非数字字符时,结束当前字面量匹配。
语法分析
语法分析就是根据语法结构,构建出一棵抽象语法树。
如 “我喜欢聪明又勇敢的你”。句子中包含主谓宾三个部分。根据语法结构层层拆分出一个上下级节点有关联的语法树。
构造语法树
首先构造根节点,代表整个程序,然后向下扫描Token构建子节点且绑定父节点。可以使用stack实现(递归下降算法)。
语义分析
语义分析就是让计算机理解我们真实地意图。
如“我喜欢聪明又勇敢的你”。你是谁?需要结合文本上下文才能确定具体指代的谁。
规则
- 计算表达式的数据类型是否统一,是否需要做转换。
- 代码块内部和外部有相同名称的变量,要用哪个?
- 在统一作用域中,检查变量唯一性,不允许有两个同名的变量。
回归标题,5 + 5 * 5
,词法定义如下:
- Token
- Number 0~9的组合
- 操作符 +、-、*、/之一
- whitespace
- LineTerminator
产生式
在计算机中指Tiger编译器将源程序经过词法分析(Lexical Analysis)和语法分析(Syntax Analysis)后得到的一系列符合文法规则(Backus-Naur Form,BNF)的语句
- 用尖括号(<, >)括起来的名称来表示语法结构名
- 语法结构分成基础结构和需要用其他语法结构定义的复合结构
- 基础结构称终结符
- 复合结构称非终结符
- 引号和中间的字符表示终结符
- 可以有括号
- *表示重复多次
- | 表示 “或”
- 表示至少一次
由于加减乘除有优先级,所以可以理解为加法是由若干个乘法表达式再由加号或者减号链接起来的。
1 | // BNF产生式 |
四则运算表达式运算
1 | function Expression(source){ |