segunda-feira 04 junho, 2012

Remover outliers no R


Muitas vezes a aplicação de um teste estatístico não é possível ou não pode ser validado devido aos outliers, ou seja, dados discrepantes que distorcem o valor da média para cima ou para baixo. Nesta video aula você descubrirá como eliminar esses valores discrepantes e também tratar outros inconvenientes na sua base de dados.

Uma opção é a utilização do pacote OUTLIERS.

Exemplo

Após instalar o pacote outliers execute os seguintes comandos:

#carregando o pacote
library("outliers")
#criando um conjunto de dados com 30 observações
dados=scan(nmax=30)
#digite os números 12 13 <strong>45</strong> 23 21 21 32 32 12 23 16 9 <strong>6</strong> 7 8 5 9 8 10 11 11 11 2 <strong>76</strong> 25 18 16 15 15 13
#visualmente já dá pra observar que os valores em negrito são candidatos a outlier
#agora faça um histograma para visualizar os dados
hist(dados)
#percebeu que existem outliers? sim.
#então elimine os outliers
dados2=rm.outlier(x=dados)
#faça um novo histograma, agora para o conjunto dados2
hist(dados2)
#percebeu a diferença? Os outliers foram eliminados.
dados
dados2

Veja também:


Veja também...


Educação: Como entrar no mestrado?
Educação: Como entrar no mestrado?
Educação
Instalar gem do postgresql no rails
Instalar gem do postgresql no rails
banco de dados, Codificação
Bancos de dados modelados
Bancos de dados modelados
banco de dados

3 Comentários

  • Annya disse:

    Olá.
    Como utilizo o rm.outlier para um dataframe?

  • Cleibson almeida disse:

    Voce instalou o pacote 'outliers' antes de rodar os comandos que coloquei?

  • Rafael disse:

    Amigo sou novo no R, estou analisando 102 dados, visualizei outliers no boxplot mas não sei quais são. Baixei o pacote outliers mas não estou conseguindo rodar os comandos do seu post, qdo chega na parte de digitar os números não consegui dar a entrada.
    Olha só:

    dados=scan(nmax=30)
    1:
    Read 0 items
    > 1
    [1] 1
    > 2
    [1] 2
    > 3
    [1] 3
    > 4
    [1] 4
    > 5
    [1] 5
    > 6
    [1] 6
    > 45
    Error: unexpected '<' in " dados=scan(nmax=30)
    1: 72 73 75
    4: 45
    4:
    Error in scan(nmax = 30) :
    scan() expected 'a real', got '45'
    > dados=scan(nmax=102)
    1: 63 66 68 72 73 78 6
    1: 63 66 68 72 73 78
    Error in scan(nmax = 102) :
    scan() expected 'a real', got '6'
    > summary(NHIS)
    Error in summary(NHIS) : object 'NHIS' not found
    > summary(outliers)
    Error in summary(outliers) : object 'outliers' not found
    > outliers
    Error: object 'outliers' not found
    > rm outliers
    Error: unexpected symbol in "rm outliers"


Trackbacks e Pingbacks

Deixe um Comentário


Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *