Com o advento da internet, o avanço da ciência e a interação entre povos de línguas diferentes,
mais e mais dados são gerados em forma de texto. Extrair informações relevantes e identificar
padrões nesta massa de dados constituem desafios tecnológicos atuais. Problemas desta
natureza são estudados em
campos de pesquisa como mineração de texto (text mining) e linguística computacional.
Neste contexto, a estatística se estabelece como uma ferramenta fundamental e indispensável
(outras ferramentas como banco de dados, teoria dos grafos, álgebra linear numérica e inteligência artificial também são usadas).
Através dos quatro módulos interativos disponíveis logo mais abaixo, nesta página,
você poderá experimentar o uso de conceitos básicos de estatística na análise
de sequências de caracteres (a “ponta do iceberg” das técnicas e ideias que são empregadas).
Sugestões de exercícios estão disponíveis no
formulário de acompanhamento do aluno.
O primeiro módulo
permite codificar/decodificar um texto usando a técnica de permutação das letras. Para
o processo de decodificação, está disponível um recurso que permite contar o número de letras
do texto. A partir da distribuição de frequência resultante, o usuário pode estabelecer
estratégias para descobrir a chave de decodificação.
O segundo módulo conta o número de letras,
dígitos, acentos, sinais de pontuação, palavras e períodos de um texto
(que pode estar em português, inglês, espanhol, francês ou alemão).
Ele também calcula o número de letras por palavra e o número
de palavras por período (apresentando média, mediana, moda, variância
e desvio padrão destas variáveis quantitativas), os períodos mais longos,
os períodos mais curtos, as palavras mais longas e as palavras mais curtas.
O terceiro módulo calcula a frequência das palavras de um texto oferecendo um ambiente
conveniente para o estudo da Lei de Zipf. Esta lei, proposta pelo professor de linguística
George Kingsley Zipf (1902-1950)
da Universidade de Harvard, propõe que, em um texto com um número grande de palavras,
a frequência f de ocorrência de uma palavra como uma função da posição r deste
evento em uma lista ordenada pela frequência de ocorrência é dada por uma lei de potências.
O quarto módulo analise o crescimento do vocabulário em um texto, isto é, ele
exibe, através de um gráfico, qual é o número de palavras diferentes em função do número de palavras lidas do início
até o final do texto.
O quinto módulo apresenta um recurso gráfico (usado principalmente na internet)
para descrever os termos mais frequentes de um determinado texto. O tamanho da fonte
em que a palavra é apresentada é uma função da frequência da palavra no texto:
palavras mais frequentes são desenhadas em fontes de tamanho maior, palavras menos frequentes
são desenhadas em fontes de tamanho menor.
Atenção: ao acessar os módulos abaixo, caso apareça uma janela solicitando uma permissão de segurança, marque
a opção “Confiar sempre no conteúdo deste editor.” (em inglês: “Always trust content from this publisher.”) e, então, clique
no botão “Executar” (em inglês: “Run”!). Isto permitirá que você copie
e cole textos dos aplicativos dos módulos.
|
|
|