Com o advento da internet, o avanço da ciência e a interação entre povos de línguas diferentes, mais e mais dados são gerados em forma de texto. Extrair informações relevantes e identificar padrões nesta massa de dados constituem desafios tecnológicos atuais. Problemas desta natureza são estudados em campos de pesquisa como mineração de texto (text mining) e linguística computacional. Neste contexto, a estatística se estabelece como uma ferramenta fundamental e indispensável (outras ferramentas como banco de dados, teoria dos grafos, álgebra linear numérica e inteligência artificial também são usadas). Através dos quatro módulos interativos disponíveis logo mais abaixo, nesta página, você poderá experimentar o uso de conceitos básicos de estatística na análise de sequências de caracteres (a “ponta do iceberg” das técnicas e ideias que são empregadas). Sugestões de exercícios estão disponíveis no formulário de acompanhamento do aluno.

O primeiro módulo permite codificar/decodificar um texto usando a técnica de permutação das letras. Para o processo de decodificação, está disponível um recurso que permite contar o número de letras do texto. A partir da distribuição de frequência resultante, o usuário pode estabelecer estratégias para descobrir a chave de decodificação.

O segundo módulo conta o número de letras, dígitos, acentos, sinais de pontuação, palavras e períodos de um texto (que pode estar em português, inglês, espanhol, francês ou alemão). Ele também calcula o número de letras por palavra e o número de palavras por período (apresentando média, mediana, moda, variância e desvio padrão destas variáveis quantitativas), os períodos mais longos, os períodos mais curtos, as palavras mais longas e as palavras mais curtas.

O terceiro módulo calcula a frequência das palavras de um texto oferecendo um ambiente conveniente para o estudo da Lei de Zipf. Esta lei, proposta pelo professor de linguística George Kingsley Zipf (1902-1950) da Universidade de Harvard, propõe que, em um texto com um número grande de palavras, a frequência f de ocorrência de uma palavra como uma função da posição r deste evento em uma lista ordenada pela frequência de ocorrência é dada por uma lei de potências.

O quarto módulo analise o crescimento do vocabulário em um texto, isto é, ele exibe, através de um gráfico, qual é o número de palavras diferentes em função do número de palavras lidas do início até o final do texto.

O quinto módulo apresenta um recurso gráfico (usado principalmente na internet) para descrever os termos mais frequentes de um determinado texto. O tamanho da fonte em que a palavra é apresentada é uma função da frequência da palavra no texto: palavras mais frequentes são desenhadas em fontes de tamanho maior, palavras menos frequentes são desenhadas em fontes de tamanho menor.

Atenção: ao acessar os módulos abaixo, caso apareça uma janela solicitando uma permissão de segurança, marque a opção “Confiar sempre no conteúdo deste editor.” (em inglês: “Always trust content from this publisher.”) e, então, clique no botão “Executar” (em inglês: “Run”!). Isto permitirá que você copie e cole textos dos aplicativos dos módulos.


MÓDULOS

Módulo 1
 
Módulo 1:
Estatística das Letras e Criptografia


 

Módulo 2
 
Módulo 2:
Estatística das Letras, Palavras e Períodos


 

Módulo 3
 
Módulo 3:
A Lei de Zipf


 

Módulo 4
 
Módulo 4:
O Crescimento do Vocabulário em um Texto


 

Módulo 5
 
Módulo 5:
Nuvem de Palavras


 



INFORMAÇÕES SUPLEMENTARES

TECLADOS

O formato de teclado de computador mais comum nos dias de hoje é o QWERTY. Este nome vem das seis primeiras letras da linha alfabética do teclado.

O formato foi inventado por Latham Sholes, Carlos Glidden e Samuel W. Soule na década de 1870 para a máquina de escrever Sholes-Glidden produzida pela empresa Remington and Sons (você consegue perceber a pequena diferença entre o formato original do teclado da figura abaixo e formato usado atualmente?). A escolha das posições das letras foi tomada de forma a contornar limitações mecânicas das primeiras máquinas de escrever, isto é, de forma a evitar o atolamento dos martelos ao se datilografar um texto.


Foto: George Iles, Leading American Inventors, 1912 (Wikimedia Commons).
 
Foto: Audriusa (Wikimedia Commons).

Existem várias críticas com relação ao formato QWERTY: questões ergonômicas (minimização do esforço nas mãos, pulsos e dedos) e de eficiência (estudo da frequência de pares ordenados de letras que coocorrem nas palavras de uma língua, minimização do uso dos dedos mínimos, alternância no uso dos dedos, alternância no uso das mãos, alternância do uso das linhas do teclado) não foram considerados em sua concepção. Teclados alternativos foram sugeridos, como o teclado Dvorak, proposto por August Dvorak e William Dealey em 1936, cujo formato simplificado é apresentado na figura abaixo. Os sistemas operacionais modernos já reconhecem o formato Dvorak e existem páginas WEB na internet que ensinam como desmontar um teclado QWERTY para construir um teclado Dvorak.

É importante lembrar também que, em geral, estes formatos de teclados são designados para a língua inglesa. Um teclado ótimo para o inglês pode não ser ótimo para o português.


LIPOGRAMAS

Um lipograma é uma composição literária que se caracteriza pela omissão deliberada de determinadas letras do alfabeto em seu texto (isto é, estas letras têm frequência zero no texto). O desafio aqui é criar textos onde as letras mais frequentes de um determinado idioma não são usadas. É fácil escrever um texto longo em português sem as letras “k”, “w” e “y”, mas é difícil escrever um texto longo em português sem a letra “a”.

Um dos expoentes nesta arte foi o espanhol Alonso de Alcalá y Herrera (1599-1682), que escreveu cinco novelas curtas em forma de lipograma: “Los Dos Soles de Toledo”, “La Carrozza com las Damas”, “La Perla de Portugal”, “La Peregrina Hermitana” e “La Serrana de Sintra”. Abaixo encontra-se um trecho da novela “La Carrozza com las Damas”. Você consegue identificar quais são as letras que estão faltando?

Por mil caminos y infinitos modos, com varios significados y apodos, títulos y sinónomos, procuraron los antiguos filósofos adjudicar y atribuir inconstancia y fragilidad a la vida humana. Unos la llamaron pompa vana; otros, acuatil ampolla; otros, inútil humo, frágil caña, ajada flor, oscura sombra, móvil átomo, mínimo soplo. Mas por uma vía o por otra todos vivían: unos com trabajos y disgustos, y otros con gustos y risa. Dos hubo por contrarios caprichos famosos, uno todas las cosas humanas abatía con mofa y las plañía con sollozos y costosas lágrimas; otro las atribuía todas a chacota y burlas y las ultrajaba con aplausos y dilatadas risas.


PANGRAMAS

Um pangrama é um período onde são usadas todas as letras do alfabeto de uma determinada língua. Pangramas são usados para testar fontes de computador e letreiros luminosos.

Aqui está um pangrama em português: “À noite, vovô Kowalsky vê o ímã cair no pé do pinguim queixoso e vovó põe açúcar no chá de tâmaras do jabuti feliz.”. Um em inglês: “The quick brown fox jumps over the lazy dog.”. Um em francês: “Monsieur Jack, vous dactylographiez bien mieux que votre ami Wolf.”. Um em alemão: “Franz jagt im komplett verwahrlosten Taxi quer durch Bayern.”. Um em espanhol: “El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palenque de paja.”.


QUAIS SÃO AS PALAVRAS COM O MAIOR NÚMERO DE LETRAS?

Não existe um consenso com relação a esta questão. Por exemplo, alguns acadêmicos consideram nomes científicos como palavras, outros não. Outros tópicos polêmicos: valem palavras inventadas? Valem nomes de lugares? Valem modificações de palavras através do uso de prefixos e sufixos?

Aqui estão algumas palavras em português com muitas letras:

pneumoultramicroscopicossilicovulcanoconióticos, anticonstitucionalissimamente e oftalmotorrinolaringologista.

Em inglês, temos:

pneumonoultramicroscopicsilicovolcanoconiosis, pseudopseudohypoparathyroidism e hippopotomonstrosesquipedalian.

Existe uma proteína denominada titin, cujo nome químico completo (em inglês) possui 189819 letras. No arquivo titin.rtf você encontrará este nome.

Em alemão, temos, por exemplo, as palavras

Donaudampfschiffahrtselektrizitätenhauptbetriebswerkbauunterbeamtengesellschaft, Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz e Unkameradschaftlichkeit.

Em francês, temos anticonstitutionnellement e, em espanhol,

superextraordinarísimamente, electroencefalografistas e esternocleidomastoideo.

Também existem nomes de lugares bem extensos. Por exemplo, na Nova Zelândia existe uma colina cujo nome é Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu.


Foto: Matthew Grosso (Wikimedia Commons).

Vale mencionar o scriptio continua, um estilo de escrita usado na antiguidade, onde o texto era escrito sem espaços ou outras marcações entre as palavras ou sentenças, o que produzia sequências bem longas de letras. Este estilo é usado atualmente para descrever endereços na internet como, por exemplo, no link http://portaldoprofessor.mec.gov.br/. Esta forma de escrita pode gerar ambiguidades: godisnowhere pode ser interpretado como “God is nowhere” (Deus não está em parte alguma) ou “God is now here” (Deus está agora aqui).


NÚMEROS REAIS NORMAIS

Dizemos que um número real é normal na base 10 se, em sua expansão decimal, qualquer dígito ocorre com frequência 1/10 e qualquer agrupamento de k dígitos ocorre com frequência 1/10k. O matemático francês Émile Borel (1871-1956) mostrou que quase todos os números reais são normais na base 10. Contudo, ele não conseguiu exibir a expansão decimal de número normal algum. O primeiro exemplo simples foi dado pelo economista David Gawen Champernowne (1912-2000):

0.12345678910111213...,

número real cuja expansão decimal é construída justapondo-se os sucessivos números naturais. Ainda não se sabe se, por exemplo, o número π é ou não normal na base 10. Apesar de o Módulo 2 ter sido idealizado para a análise de textos, você pode usá-lo para estudar as frequências dos dígitos nos primeiros dígitos da expansão decimal de um número real.




Creative Commons License

Responsável: Humberto José Bortolossi.
Idealização: Humberto José Bortolossi.
Programação: Humberto José Bortolossi.
Revisão: Thiago Gomes Pereira e Humberto José Bortolossi.

Estatística das Letras, Palavras e Períodos 29/05/2009
Atualizações desta atividade estarão disponíveis no endereço http://www.uff.br/cdme/.
Endereço alternativo: http://www.cdme.im-uff.mat.br/.

Dúvidas? Sugestões? Nós damos suporte! Contacte-nos pelo e-mail:
conteudosdigitais@im.uff.br.