Se dedica à coleta, análise e interpretação de dados e preocupa-se com os métodos de coleta, organização, resumo, apresentação e interpretação dos dados, assim como tirar conclusões sobre as características das fontes donde estes foram retirados, para melhor compreender as situações.
Algumas práticas estatísticas incluem, por exemplo, o planejamento, a sumarização e a interpretação de observações. Dado que o objetivo da estatística é a produção da melhor informação possível a partir dos dados disponíveis, alguns autores sugerem que a estatística seja um ramo da teoria da decisão.
Devido às suas raízes empíricas e seu foco em aplicações, a estatística geralmente é considerada uma disciplina distinta da matemática, e não um ramo dessa.[2][3]
Etimologia
O termo "estatística" surge da expressão em latimstatisticum collegium, "palestra sobre os assuntos do Estado", de onde surgiu a palavra em língua italianastatista, que significa "homem de estado", ou político, e a palavra alemãStatistik, designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por Schmeitzel na Universidade de Jena e adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário na Enciclopédia Britânica em 1797, e adquiriu um significado de coleta e classificação de dados, no início do século XIX.
Alguns autores dizem que é comum encontrar como marco inicial da estatística a publicação do "Observations on the Bills of Mortality" (Observações sobre os Censos de Mortalidade, 1662) de John Graunt. As primeiras aplicações do pensamento estatístico estavam voltadas para as necessidades de Estado, na formulação de políticas públicas, fornecendo dados demográficos e econômicos. A abrangência da estatística aumentou no começo do século XIX para incluir a acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente aplicada nas ciências naturais, e sociais, inclusive na administração pública e privada.
Seus fundamentos matemáticos foram postos no século XVII com o desenvolvimento da teoria das probabilidades por Pascal e Fermat, que surgiu com o estudo dos jogos de azar. O método dos mínimos quadrados foi descrito pela primeira vez por Carl Friedrich Gauss, aproximadamente no ano de 1794. O uso de computadores modernos tem permitido a computação de dados estatísticos em larga escala e também tornaram possível novos métodos antes impraticáveis.
Estatística inferencial é o conjunto de técnicas utilizadas para identificar relações entre variáveis que representem ou não relações de causa e efeito;
Estatística robusta é o conjunto de técnicas utilizadas para atenuar o efeito de outliers e preservar a forma de uma distribuição tão aderente quanto possível aos dados empíricos.
A estatística não é uma ferramenta matemática que nos informa sobre o quanto de erro nossas observações apresentam sobre a realidade pesquisada. A estatística baseia-se na medição do erro que existe entre a estimativa de quanto uma amostra representa adequadamente a população da qual foi extraída. Assim o conhecimento de teoria de conjuntos, análise combinatória e cálculo são indispensáveis para compreender como o erro se comporta e a magnitude do mesmo. É o erro (erro amostral) que define a qualidade da observação e do delineamento experimental.
A faceta dessa ferramenta mais palpável é a estatística descritiva. A descrição dos dados coletados é comumente apresentado em gráficos ou relatórios e serve tanto a prospecção de uma ou mais variáveis para posterior aplicação ou não de testes estatísticos bem como a apresentação de resultados de delineamentos experimentais.
Nós descrevemos o nosso conhecimento de forma matemática e tentamos aprender mais sobre aquilo que podemos observar. Isto requer:
O planejamento das observações por forma a controlar a sua variabilidade (concepção do experimento);
Sumarização da coleção de observações;
Inferência estatística - obter um consenso sobre o que as observações nos dizem sobre o mundo que observamos.
Em algumas formas de estatística descritiva, nomeadamente mineração de dados (data mining), os segundo e terceiro passos tornam-se normalmente mais importantes que o primeiro.
Normalmente aproximamos a probabilidade de alguma coisa para cima ou para baixo porque elas são tão prováveis ou improváveis de ocorrer, que é fácil de reconhecê-las como probabilidade de um ou zero. Entretanto, isso pode levar a desentendimentos e comportamentos perigosos, porque é difícil distinguir entre, uma probabilidade de 10−4 e uma de 10−9, a despeito da grande diferença numérica entre elas. Por exemplo, se você espera atravessar uma estrada 105 ou 106 vezes na sua vida, definir o risco de atravessá-la em 10−9 significa que você está bem seguro pelo resto da sua vida. Entretanto, um risco de 10−4 significa que é bem provável que você tenha um acidente, mesmo que intuitivamente um risco de 0,01% pareça muito baixo.
Estatística computacional
O crescimento rápido e sustentados no poder de processamento dos computadores a partir da segunda metade do século XX teve um forte impacto na prática da estatística. Os modelos estatísticos mais antigos eram quase sempre lineares, mas os computadores modernos, junto com algoritmos numéricos apropriados, causaram um aumento do interesse nos modelos não-lineares (especialmente redes neurais e árvores de decisão) assim como na criação de novos tipos, como o modelo linear generalizado e o modelo multi-nível.
O aumento na capacidade de computação também tem levado à popularização de métodos que demandam muitos cálculos baseados em reamostragem (em inglês e no jargão do meio resampling), como testes de permutação e bootstrap, enquanto técnicas como a amostragem de Gibbs tem feito com que os métodos de Bayes fiquem mais fáceis. A revolução informática também tem levado a um aumento na ênfase na estatística "experimental" e "empírica". Um grande número de softwares estatísticos, de uso tanto geral como específico estão disponíveis no mercado.
Aplicações
Algumas ciências usam a estatística aplicada tão extensivamente que elas têm uma terminologia especializada. Estas disciplinas incluem:
Estatística forma uma ferramenta chave nos negócios e na industrialização como um todo. É utilizada a fim de entender sistemas variáveis, controle de processos (chamado de "controle estatístico de processo" ou CEP), custos financeiros (contábil) e de qualidade e para sumarização de dados e também tomada de decisão baseada em dados. Nessas funções ela é uma ferramenta chave, e é a única ferramenta segura.
↑Moore, David (1992). «Teaching Statistics as a Respectable Subject». Statistics for the Twenty-First Century. Washington, DC: The Mathematical Association of America. pp. 14–25