lexer

2023-03-20 23:01:15 +01:00 · 2023-03-20 23:01:15 +01:00 · ae098219b3
commit ae098219b3
parent 2f1b2b50d5
6 changed files with 206 additions and 0 deletions
--- a/.clang-format
+++ b/.clang-format
@ -0,0 +1,14 @@
 BasedOnStyle: WebKit
 IndentWidth: 4
 ColumnLimit: 80
 IndentCaseLabels: true
 BreakBeforeBraces: Custom
 BraceWrapping:
    AfterFunction: true
    SplitEmptyFunction: false
 AlignAfterOpenBracket: BlockIndent
 AlignOperands: AlignAfterOperator
 BreakBeforeBinaryOperators: true
 BinPackArguments: false
 BinPackParameters: false
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,4 @@
 matemateak
 *.o
 compile_flags.txt
--- a/23
+++ b/23
@ -0,0 +1,23 @@
 CC = gcc
 CFLAGS = -std=c17 -Wall -Wextra -Wpedantic -Wconversion
 LFLAGS = -lm
 C_FILES = $(shell find src/ -name *.c)
 HEADER_FILES = $(shell find src/ -name *.h)
 OBJECT_FILES = $(patsubst %.c, %.o, $(C_FILES))
 matemateak: $(OBJECT_FILES)
 	$(CC) -o $@ $(LFLAGS) $^
 %.o: %.c $(HEADER_FILES)
 	$(CC) -c -o $@ $(CFLAGS) $<
 compile_flags.txt:
 	echo -xc $(C_FLAGS) | sed 's/\s\+/\n/g' > compile_flags.txt
 clean:
 	$(RM) $(OBJECT_FILES) matemateak
--- a/src/lexer.c
+++ b/src/lexer.c
@ -0,0 +1,123 @@
 #include "lexer.h"
 #include <stdbool.h>
 bool lexer_done(const Lexer* lexer) { return lexer->index >= lexer->length; }
 char lexer_current(const Lexer* lexer) { return lexer->text[lexer->index]; }
 void lexer_step(Lexer* lexer)
 {
    lexer->index += 1;
    if (!lexer_done(lexer)) {
        if (lexer_current(lexer) == '\n') {
            lexer->line += 1;
            lexer->col = 1;
        } else {
            lexer->col += 1;
        }
    }
 }
 Position lexer_pos(const Lexer* lexer)
 {
    return (Position) {
        .index = lexer->index,
        .line = lexer->line,
        .col = lexer->col,
    };
 }
 Token lexer_token(const Lexer* lexer, TokenType type, Position start)
 {
    return (Token) {
        .type = type,
        .index = start.index,
        .length = lexer->index - start.index,
        .line = start.line,
        .col = start.col,
    };
 }
 Token lexer_step_and_token(Lexer* lexer, TokenType type, Position start)
 {
    lexer_step(lexer);
    return lexer_token(lexer, type, start);
 }
 bool lexer_is_whitespace(char value)
 {
    return value == ' ' || value == '\t' || value == '\r' || value == '\n';
 }
 Token lexer_skip_whitespace(Lexer* lexer)
 {
    lexer_step(lexer);
    while (!lexer_done(lexer) && lexer_is_whitespace(lexer_current(lexer)))
        lexer_step(lexer);
    return lexer_next(lexer);
 }
 bool lexer_is_int(char value) { return value >= '0' && value <= '9'; }
 bool lexer_is_int_start(char value) { return lexer_is_int(value); }
 Token lexer_int_token(Lexer* lexer)
 {
    Position start = lexer_pos(lexer);
    lexer_step(lexer);
    while (!lexer_done(lexer) && lexer_is_int(lexer_current(lexer)))
        lexer_step(lexer);
    return lexer_token(lexer, TokenTypeInt, start);
 }
 void lexer(Lexer* lexer, const char* text, size_t length)
 {
    *lexer = (Lexer) {
        .text = text,
        .length = length,
        .index = 0,
        .line = 1,
        .col = 1,
    };
 }
 Token lexer_level3(Lexer* lexer)
 {
    if (lexer_is_int_start(lexer_current(lexer)))
        return lexer_int_token(lexer);
    else
        return lexer_step_and_token(
            lexer, TokenTypeInvalidChar, lexer_pos(lexer)
        );
 }
 Token lexer_level2(Lexer* lexer)
 {
    Position start = lexer_pos(lexer);
    switch (lexer_current(lexer)) {
        case '+':
            return lexer_step_and_token(lexer, TokenTypePlus, start);
        case '-':
            return lexer_step_and_token(lexer, TokenTypeMinus, start);
        case '*':
            return lexer_step_and_token(lexer, TokenTypeAsterisk, start);
        case '/':
            return lexer_step_and_token(lexer, TokenTypeSlash, start);
        case '(':
            return lexer_step_and_token(lexer, TokenTypeLParen, start);
        case ')':
            return lexer_step_and_token(lexer, TokenTypeRParen, start);
        default:
            return lexer_level3(lexer);
    }
 }
 Token lexer_next(Lexer* lexer)
 {
    if (lexer_done(lexer))
        return lexer_token(lexer, TokenTypeEof, lexer_pos(lexer));
    else if (lexer_is_whitespace(lexer_current(lexer)))
        return lexer_skip_whitespace(lexer);
    else
        return lexer_level2(lexer);
 }
--- a/src/lexer.h
+++ b/src/lexer.h
@ -0,0 +1,38 @@
 #ifndef LEXER_H
 #define LEXER_H
 #include <stddef.h>
 typedef struct {
    size_t index;
    int line, col;
 } Position;
 typedef enum {
    TokenTypeEof,
    TokenTypeInvalidChar,
    TokenTypeInt,
    TokenTypePlus,
    TokenTypeMinus,
    TokenTypeAsterisk,
    TokenTypeSlash,
    TokenTypeLParen,
    TokenTypeRParen,
 } TokenType;
 typedef struct {
    TokenType type;
    size_t index, length;
    int line, col;
 } Token;
 typedef struct {
    const char* text;
    size_t index, length;
    int line, col;
 } Lexer;
 void lexer(Lexer* lexer, const char* text, size_t length);
 Token lexer_next(Lexer* lexer);
 #endif
--- a/src/main.c
+++ b/src/main.c
@ -0,0 +1,4 @@
 #include <stdio.h>
 #include <stdlib.h>
 int main(void) { printf("hello world\n"); }