Analisador Léxico

Analisador Léxico

Analisador Léxico Fabiano Rodrigues Farley J. R. Oliveira 051.649-1 Michel Sato Vitor Lins Vieira 052.696-7

Analisador Léxico • A análise léxica é a primeira fase do compilador. A função do analisador léxico, também denominado scanner, é ler o código fonte, caracter a caracter, buscando a separação e identificação dos elementos componentes do programa fonte, denominados símbolos léxicos ou tokens.

Analisador Léxico • É também de responsabilidade desta fase a eliminação de elementos "decorativos" do programa, tais como espaços em branco, marcas de formatação de texto e comentários.

Tokens • A criação dos símbolos (tokens) é importante, pois torna a próxima etapa de um compilador (análise sintática, ou parsing) mais simples.

Etapas • Na análise léxica podemos destacar três etapas: • Extração e classificação dos tokens • Eliminação de delimitadores e comentários • Recuperação de erros

Tokens • O objetivo principal da análise léxica é identificar sequências de caracteres que constituem unidades léxicas ("tokens"). O analisador léxico lê, caractere a caractere, o texto fonte, verificando se os caracteres lidos pertencem ao alfabeto da linguagem, identificando tokens, e desprezando comentários e brancos desnecessários.

Tokens • Tokens são símbolos tais como palavras reservadas, delimitadores, identificadores, etc. • Os tokens (símbolos léxicos) são unidades básicas de texto do programa. Eles são representados internamente por três informações: classe do token, valor do token e posição do token.

Recuperação de Erros • Ações possíveis: • Remoção de sucessivos caracteres até o reconhecimento de um token válido (modalidade Pânico). • Inserção de um caractere ausente. • Substituição de um caractere incorreto por outro correto. • Transposição de caracteres adjacentes.

Exemplo • Exemplo: sum=3+2; token type sum IDENT = ASSIGN_OP 3 NUMBER + ADD_OP 2 NUMBER ; SEMICOLON

Exemplo de comando • Comando em Java: if (i== j) z = 0; /* No work needed */ else z= 1; • Como o analisador léxico vê os comandos: \tif(i== j)\n\t\tz = 0; /* No work needed */\n\telse\n\t\tz= 1;

Formação de Tokens & Expressões Regulares • Analisador efetua sucessivas verificações de caracteres até encontrar um caracter de “estado morto”, como espaço, parênteses, ponto-e-vírgula • Retorna à ultima análise válida para extrair um lexeme • Um lexeme classificado se torna um token • O reconhecimento de um token é feito através de expressões regulares

Scanner • Após a definição dos tokens, o scanner, uma função do analisador léxico, converte isto: \tif(i== j)\n\t\tz = 0; /* No work needed */\n\telse\n\t\tz= 1; • Nisto: IF, LPAR, ID("i"), EQUALS, ID("j"), RPAR, ID("z"), ASSIGN, INTLIT(""), SEMI, ELSE, ID("z"), ASSIGN, INTLIT(""), SEMI que é a “expressão” a ser enviada ao analisador sintático

Classe de Scanner • Exemplo de classe para um scanner em Java class Token { enum SyntacticCategory { IF, LPAR, ID, EQUALS, RPAR, ASSIGN, ... }; SyntacticCategory syntax; Object value; Location sourcePosition; ... }

Geradores de Analisadores Lèxicos • FLEX • OOLEX

LEX / FLEX • LEX é uma ferramenta para a geração automática de analisadores léxicos • Versão Free: FLEX (Fast LEX) • Desenvolvido em 1975 em conjunto com o YACC (Yet another compiler-compiler), por Mike Lesk & Eric Schmidt. No Bell Laboratories

LEX / FLEX • Free Software Foundation – GNU – FLEX: Implementação mais rápida do FLEX (e gratuita!!) • O gcc (GNU C Compiler) foi desenvolvido com LEX & YACC. • LEX: dividir as entradas em unidades coerentes (tokens) • YACC: descobrir o relacionamento entre os tokens. (análise sintática)

LEX / FLEX • Objetivos: desenvolvida para programadores de compiladores e interpretadores; porém podem ser usadas também em detecção de padrões em arquivos de dados, linguagem de comandos, etc.. • Vantagem: Rápido desenvolvimento de protótipos e manutenção simples do software.

LEX / FLEX • Papel do LEX: toma um conjunto de descrições de possíveis tokens e produz uma rotina em C que irá identificar estes tokens • Papel do Yacc: toma uma descrição concisa de uma gramática e produz uma rotina em C que irá executar a análise sintática ou parsing. • NOTA: um analisador léxico desenvolvido usando Lex é quase sempre mais rápido do que um analisador léxico escrito diretamente em C.

LEX / FLEX

LEX / FLEX • Encontra-se em qualquer sistema Unix e pode ser chamada usando os comandos lex ou flex; • Transforma um arquivo contendo expressões regulares em um programa C que reconhece os padrões descritos no arquivo • O Flex lê os arquivos de entrada (arquivo de definição), obtendo assim a descrição do scanner a ser gerado. Esse arquivo é definido usando a linguagem lex

LEX / FLEX

LEX / FLEX • Um arquivo de descrição Flex é dividido em três seções separadas por %% : • DEFINICOES %%: Contém declarações de variáveis, constantes e definições regulares; • REGRAS %%: Contém definições de rotinas em C que são chamadas quando uma expressão é reconhecida • CODIGO Contém o main (início de procedure em C) e descreve como o analisador léxico deve ser utilizado

LEX / FLEX • SEÇÃO DE DEFINIÇÕES: • É opcional (pode ser vazia) • Contém definições léxicas, e a declaração e inicialização de variáveis globais • Uma definição léxica possui a forma NOME DEFINIÇÃO • As definições são expressões regulares que reconhecem tokens do texto fonte. • Seu conteúdo será copiado no início do arquivo C gerado na saída.

LEX / FLEX • SEÇÃO DE DEFINIÇÕES: • LEX define por padrão as variaveis globais: yytext (lexema corrente) e yyleng (tamanho do lexema) • Definições de macros: digito [01]+ /* substituir {digito} por [01]+ ao processar as regras */ frac .[0-9]+ /* substituir {frac} por .[0-9]+ ao processar as reg nl \n/* substituir {nl} por \n ao processar as regras */ras */ • A inclusão das linhas de comando em C devem ser delimitadas por <%{> e <%}>, como: %{ #include <y.tab.h> extern int yylval; %}

LEX / FLEX • SEÇÃO DE REGRAS: • Define a funcionalidade do analisador léxico. Cada regra compreende uma seqüência valida de caracteres (literais/expressões regulares) . • Definido da seguinte forma: token {AÇÃO} • A ação pode ser nula ‘{ }’ ou conter um ou mais comandos em linguagem C.

LEX / FLEX • SEÇÃO DE REGRAS: • Ao chamar a função yylex(), passando o token e seu tamanho, o analisador executará a AÇÃO associada àquela token; • Retornará o próprio token caso seja reconhecido pelo analisador léxico; • Retornará brancos caso nenhuma ação seja tomada, ou caso seja encontrados espaços em branco; • ‘{ printf(“é isso ai\n”);} é a “ação” que consiste em imprimir uma mensagem na tela.

LEX / FLEX • SEÇÃO DE CODIGOS / PROCEDIMENTOS ADICIONAIS: • Opcional (pode ser vazia) • Possui o código C definido pelo programador (função main() , que deve chamar a função yylex() • Qualquer código C nessa seção será copiado diretamente no arquivo produzido pelo Lex. • Pode definir código para as ações complexas usadas na seção anterior.

LEX / FLEX • UTILIZAÇÃO DO COMPONENTE GERADO • O LEX é acoplado ao YACC, que efetua a analise sintática. É uma ferramenta similar e complementar ao LEX. • O LEX gera a função yylex() , que retorna o identificador de um item léxico reconhecido. • O YACC funciona de forma a chamar o yylex() do LEX; • O YACC gera a função yyparse() , que analisa os itens léxicos e decide se ele formam ou não uma sentença válida.

Analisador Léxico OOLEX

OOLEX • OOLEX (object-oriented lexer) é estritamente baseada no paradigma de orientação a objetos. • Tese de doutorado de Bernd Kühl and Axel-Tobias Schreiner em Ciências da Computação na Universidade de Osnabrück, Alemanha

OOLEX • OOLEX pode ser estendido sem acesso para o código fonte: símbolo recognizer pode ser obtido por herança e um scanner de execução pode ser reconfigurado para diferentes contextos. • OOLEX não precisa ser baseado em um autômato finito e, portanto, ele pode reconhecer símbolos que sistemas como o flex não reconhece diretamente.

OOLEX • OOLEX é usado para prototipagem rápida: a maioria dos identificadores existentes podem ser representados como expressões regulares para o JLex baseados em Java. • OOLEX oferece muitas vantagens sobre Scanners de Expressões Regulares scanners • OOLEX tem um desempenho pior justificado pela flexibilidade, um ciclo de desenvolvimento mais curtos e mais funcionalidades.

OOLEX • OOLEX pode compilar uma expressão regular em uma árvore de objetos recognizers • OOLEX é muito mais fácil de usar, porque já existe uma biblioteca de recognizers para os símbolos mais comuns • OOLEX em sua própria classe quando se trata de análise léxica

Analisador Léxico LOLO

LOLO • LOLO (language-oriented lexer objects) é estritamente baseada no paradigma de orientação a objetos. • Continuação da tese de doutorado de Bernd Kühl and Axel-Tobias Schreiner em Ciências da Computação na Universidade de Osnabrück, Alemanha

LOLO • Não necessita de autômato finito • Modelagem de estados, transições e ações • Reconhece diretamente símbolos que sistemas como FLEX não

LOLO • Não necessita de autômato finito • Modelagem de estados, transições e ações • Reconhece símbolos que sistemas como flex não conseguiriam diretamente

LOLO • Baseia-se na competição de objetos • Que buscam reconhecer um único símbolo

LOLO • Um input entra numa "sala" repleta de objetos • Caractere a caractere é verificado por cada objeto, que caso não reconheça é retirado da sala • O último objeto a sair é o ganhador • Reconheceu a maior sequência de caracteres

LOLO • Principal desvantagem é a performance • Cerca de 3 vezes mais lento em comparação ao Flex

Analisador Léxico FIM

Analisador Léxico

Analisador Léxico

Presentation Transcript

Enseñanzas de los Riesgos Catastróficos en México

La Evaluación y Acreditación de la Educación Superior en México.

Conferencia de Gobernadores Fronterizos México-Estados Unidos Mesa del Agua

La integración y la empresa de la UE en México

Morbi - Mortalidad Materna y por aborto en México: un análisis de las últimas dos décadas Raffaela Schiavon, G

Universidad Cuauhtémoc Tratados Comerciales Internacionales Beatriz Ariana Zapata Hernández TLC México- Bolivia 18-Oc

Hipertensión Arterial Esencial

La Historia de los cambios en la Iglesia Metodista de México y su futuro

HISTORIA DE LA SALLE EN MÉXICO

México en el siglo XIX Litografías y pinturas de Carl Nebel (1805-1855)

Dr. Rogelio Vázquez González Departamento de Geofísica Aplicada CICESE México

Evolución del desempeño logístico de las cadenas de suministro en México

MÉXICO Y LA SOCIEDAD DEL CONOCIMIENTO

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDES PLANTEL VALLEJO

INTERNET 2 en México Junio 22, 2001

manuel ma. contreras N° 133 6° piso. del. cuauhtémoc. 06597 méxico d.f. ema@ema.mx

Análisis Léxico

LA CONQUISTA DE MÉXICO Y MÉXICO COLONIAL

Análisis Léxico

Vigilancia epidemiológica de la enfermedad diarreica aguda y cólera

HISTORIA ECONÓMICA DE MÉXICO

Guía Modular de Estudio Estructura Socioeconómica de México