|
Com o advento da internet, o avanço da ciência e a interação entre povos de línguas diferentes,
mais e mais dados são gerados em forma de texto. Extrair informações relevantes e identificar
padrões nesta massa de dados constituem desafios tecnológicos atuais. Problemas desta
natureza são estudados em
campos de pesquisa como mineração de texto (text mining) e linguística computacional.
Neste contexto, a estatística se estabelece como uma ferramenta fundamental e indispensável
(outras ferramentas como banco de dados, teoria dos grafos, álgebra linear numérica e inteligência artificial também são usadas).
Através dos quatro módulos interativos disponíveis logo mais abaixo, nesta página,
você poderá experimentar o uso de conceitos básicos de estatística na análise
de sequências de caracteres (a “ponta do iceberg” das técnicas e ideias que são empregadas).
Sugestões de exercícios estão disponíveis no
formulário de acompanhamento do aluno.
|
MÓDULOS
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
INFORMAÇÕES SUPLEMENTARES
|
TECLADOS | |||||
O formato de teclado de computador mais comum nos dias de hoje é o QWERTY. Este nome vem das seis primeiras letras da linha alfabética do teclado.
O formato foi inventado por Latham Sholes, Carlos Glidden e Samuel W. Soule na década de 1870 para a máquina de escrever Sholes-Glidden produzida pela empresa Remington and Sons (você consegue perceber a pequena diferença entre o formato original do teclado da figura abaixo e formato usado atualmente?). A escolha das posições das letras foi tomada de forma a contornar limitações mecânicas das primeiras máquinas de escrever, isto é, de forma a evitar o atolamento dos martelos ao se datilografar um texto.
Existem várias críticas com relação ao formato QWERTY: questões ergonômicas (minimização do esforço nas mãos, pulsos e dedos) e de eficiência (estudo da frequência de pares ordenados de letras que coocorrem nas palavras de uma língua, minimização do uso dos dedos mínimos, alternância no uso dos dedos, alternância no uso das mãos, alternância do uso das linhas do teclado) não foram considerados em sua concepção. Teclados alternativos foram sugeridos, como o teclado Dvorak, proposto por August Dvorak e William Dealey em 1936, cujo formato simplificado é apresentado na figura abaixo. Os sistemas operacionais modernos já reconhecem o formato Dvorak e existem páginas WEB na internet que ensinam como desmontar um teclado QWERTY para construir um teclado Dvorak.
É importante lembrar também que, em geral, estes formatos de teclados são designados para a língua inglesa. Um teclado ótimo para o inglês pode não ser ótimo para o português. |
LIPOGRAMAS | |
Um lipograma é uma composição literária que se caracteriza pela omissão deliberada de
determinadas letras do alfabeto em seu texto (isto é, estas letras têm frequência
zero no texto). O desafio aqui é criar textos onde as letras mais frequentes de um determinado
idioma não são usadas. É fácil escrever um texto longo em português sem as letras “k”, “w” e “y”,
mas é difícil escrever um texto longo em português sem a letra “a”.
|
PANGRAMAS |
Um pangrama é um período onde são usadas todas as letras do alfabeto de uma determinada língua.
Pangramas são usados para testar fontes de computador e letreiros luminosos.
|
QUAIS SÃO AS PALAVRAS COM O MAIOR NÚMERO DE LETRAS? | |
Não existe um consenso com relação a esta questão. Por exemplo, alguns acadêmicos consideram
nomes científicos como palavras, outros não. Outros tópicos polêmicos: valem palavras
inventadas? Valem nomes de lugares? Valem modificações de palavras através do uso
de prefixos e sufixos?
pneumoultramicroscopicossilicovulcanoconióticos, anticonstitucionalissimamente e oftalmotorrinolaringologista. Em inglês, temos: pneumonoultramicroscopicsilicovolcanoconiosis, pseudopseudohypoparathyroidism e hippopotomonstrosesquipedalian. Existe uma proteína denominada titin, cujo nome químico completo (em inglês) possui 189819 letras. No arquivo titin.rtf você encontrará este nome. Em alemão, temos, por exemplo, as palavras Donaudampfschiffahrtselektrizitätenhauptbetriebswerkbauunterbeamtengesellschaft, Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz e Unkameradschaftlichkeit. Em francês, temos anticonstitutionnellement e, em espanhol, superextraordinarísimamente, electroencefalografistas e esternocleidomastoideo. Também existem nomes de lugares bem extensos. Por exemplo, na Nova Zelândia existe uma colina cujo nome é Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu.
Vale mencionar o scriptio continua, um estilo de escrita usado na antiguidade, onde o texto era escrito sem espaços ou outras marcações entre as palavras ou sentenças, o que produzia sequências bem longas de letras. Este estilo é usado atualmente para descrever endereços na internet como, por exemplo, no link http://portaldoprofessor.mec.gov.br/. Esta forma de escrita pode gerar ambiguidades: godisnowhere pode ser interpretado como “God is nowhere” (Deus não está em parte alguma) ou “God is now here” (Deus está agora aqui). |
NÚMEROS REAIS NORMAIS |
Dizemos que um número real é normal na base 10 se, em sua expansão
decimal, qualquer dígito ocorre com frequência 1/10 e qualquer agrupamento
de k dígitos ocorre com frequência 0.12345678910111213..., número real cuja expansão decimal é construída justapondo-se os sucessivos números naturais. Ainda não se sabe se, por exemplo, o número π é ou não normal na base 10. Apesar de o Módulo 2 ter sido idealizado para a análise de textos, você pode usá-lo para estudar as frequências dos dígitos nos primeiros dígitos da expansão decimal de um número real. |
|
Responsável:
Humberto José Bortolossi.
Idealização: Humberto José Bortolossi. Programação: Humberto José Bortolossi. Revisão: Thiago Gomes Pereira e Humberto José Bortolossi. Estatística das Letras, Palavras e Períodos 29/05/2009 Atualizações desta atividade estarão disponíveis no endereço http://www.uff.br/cdme/. Endereço alternativo: http://www.cdme.im-uff.mat.br/. |