Tutorial de programação R

Você quer, para iniciante ao especialista R Programador rapidamente? R é uma das melhores linguagens de programação para trabalhar com estatística, matemática e ciência de dados. Este tutorial ajudará você a aprender R e construir seu primeiro modelo de aprendizado de máquina. Vamos começar.

Compilando e executando o R a partir da linha de comando

As duas maneiras de executar programas R são: um script R, que é amplamente usado e é o mais preferido e o segundo é R CMD BATCH, não é um comando comumente usado. Podemos chamá-los diretamente da linha de comando ou de qualquer outro agendador de trabalho.

É possível chamar esses comandos de um shell embutido no IDE e, hoje em dia, o IDE RStudio vem com ferramentas que aprimoram ou gerenciam o script R e as funções R CMD BATCH.

A função source () dentro do R é uma boa alternativa ao uso da linha de comando. Esta função também pode chamar um script, mas para usar esta função, você deve estar dentro do ambiente R.

Conjuntos de dados integrados da linguagem R

Para listar os conjuntos de dados integrados com R, use o comando data (), encontre o que deseja e use o nome do conjunto de dados na função data (). Dados semelhantes (nome da função).

Mostrar conjuntos de dados em R

O ponto de interrogação (?) pode ser usado para pedir ajuda para conjuntos de dados.

Para verificar tudo, use o resumo ().

Plot () também é uma função usada para traçar gráficos.

Vamos criar um script de teste e executá-lo. Crio p1.R arquivo e salve-o no diretório inicial com o seguinte conteúdo:

Exemplo de código:

 # Código simples hello world em R print ("Hello World!") imprimir (" LinuxHint ") imprimir (5 + 6)

Executando Hello World

Quadros de dados R

Para armazenar dados em tabelas, usamos uma estrutura em R chamada de Quadro de dados. É usado para listar vetores de igual comprimento. Por exemplo, a seguinte variável nm é um quadro de dados contendo três vetores x, y, z:

x = c (2, 3, 5) y = c ("aa", "bb", "cc") z = c (VERDADEIRO, FALSO, VERDADEIRO) # nm é um quadro de dados nm = dados.quadro (n, s, b)

Existe um conceito chamado Construídas emQuadros de dados em R também. mtcars é um desses quadros de dados integrados em R, que usaremos como exemplo, para nosso melhor entendimento. Veja o código abaixo:

 > mtcars mpg cil disp hp drat wt… Mazda RX4 21.0 6 160 110 3.90 2.62 ... bus RX4 Wag 21.0 6 160 110 3.90 2.88… Datsun 710 22.8 4 108 93 3.85 2.32 ..

dataframe do mtcars bulitin

O cabeçalho é a linha superior da tabela que contém os nomes das colunas. As linhas de dados são doadas por cada linha horizontal; cada linha começa com o nome da linha e, em seguida, é seguida pelos dados reais. O membro de dados de uma linha é denominado como uma célula.

Nós inseriríamos as coordenadas de linha e coluna em um único colchete operador '[]' para recuperar dados em uma célula. Para separar as coordenadas, usamos uma vírgula. A ordem é essencial. A coordenada começa com linha, vírgula e termina com coluna. Valor de célula de 2^WL linha e 1^st coluna é fornecida como:

 > mtcars [2, 2] [1] 6

Também podemos usar o nome da linha e da coluna em vez de coordenadas:

 > mtcars ["Ônibus RX4", "mpg"] [1] 6

A função nrow é usada para encontrar o número de linhas no quadro de dados.

 > nrow (mtcars) # número de linhas de dados [1] 32

A função ncol é usada para encontrar o número de colunas em um quadro de dados.

 > ncol (mtcars) # número de colunas [1] 11

Loops de programação R

Sob algumas condições, usamos loops quando queremos automatizar alguma parte do código ou queremos repetir uma sequência de instruções.

Para loop em R

Se quisermos imprimir as informações desses anos mais de uma vez.

 print (paste ("The year is", 2000)) "The year is 2000" print (paste ("The year is", 2001)) "The year is 2001" print (paste ("The year is", 2002) ) "O ano é 2002" print (paste ("O ano é", 2003)) "O ano é 2003" print (paste ("O ano é", 2004)) "O ano é 2004" print (paste (" O ano é ", 2005))" O ano é 2005 "

Em vez de repetir a nossa declaração uma e outra vez, se usarmos para loop será muito mais fácil para nós. Como isso:

 for (year in c (2000,2001,2002,2003,2004,2005)) print (paste ("The year is", year)) "The year is", year)) "The year is 2000" "The year is 2001" "The year is 2002 "" O ano é 2003 "" O ano é 2004 "" O ano é 2005 "

While Loop em R

 while (expressão) declaração

Se o resultado da expressão for TRUE, o corpo do loop é inserido. As instruções dentro do loop são executadas e o fluxo retorna para avaliar a expressão novamente. O loop se repetirá até que a expressão seja avaliada como FALSE, caso em que o loop termina.

Exemplo de loop while:

 # i é inicialmente inicializado para 0 i = 0 enquanto (i<5)  print (i) i=i+1  Output: 0 1 2 3 4

No loop while acima, a expressão é eu<5que mede como TRUE já que 0 é menor que 5. Portanto, o corpo do loop é executado, e eu é produzido e incrementado. É importante incrementar eu dentro do loop, de modo que, de alguma forma, ele atenderá à condição em algum ponto. No próximo ciclo, o valor de eu é 1, e o loop continua. Ele vai se repetir até eu é igual a 5 quando a condição 5<5 reached loop will give FALSE and the while loop will exit.

Funções R

Para criar um função usamos a função diretiva (). Especificamente, eles são objetos R de classe função.

f <- function()  ##some piece of instructions

Notavelmente, as funções podem ser passadas para outras funções como argumentos e funções podem ser aninhadas, para permitir que você determine uma função dentro de outra função.

As funções opcionalmente podem ter alguns argumentos nomeados que possuem valores padrão. Se você não quiser um valor padrão, pode definir seu valor como NULL.

Alguns fatos sobre os argumentos da Função R:

Os argumentos admitidos na definição da função são os argumentos formais
A função formals pode fornecer uma lista de todos os argumentos formais de uma função
Nem toda chamada de função em R usa todos os argumentos formais
Os argumentos da função podem ter valores padrão ou podem estar ausentes

# Definição de uma função: f <- function (x, y = 1, z = 2, s= NULL)

Criação de um modelo de regressão logística com conjunto de dados integrado

O glm () função é usada em R para ajustar a regressão logística. A função glm () é semelhante a lm (), mas glm () tem alguns parâmetros adicionais. Seu formato é assim:

 glm (X ~ Z1 + Z2 + Z3, família = binomial (link = ”logit”), dados = meusdados)

X depende dos valores de Z1, Z2 e Z3. O que significa que Z1, Z2 e Z3 são variáveis independentes e X é o dependente. Função envolve família de parâmetros extras e tem valor binomial (link = "logit"), o que significa que a função de link é logit e a distribuição de probabilidade do modelo de regressão é binomial.

Suponha que tenhamos um exemplo de aluno em que ele será admitido com base em dois resultados de exames. O conjunto de dados contém os seguintes itens:

resultado _1- pontuação Resultado-1
resultado _2- Resultado -2 pontuação
admitido- 1 se admitido ou 0 se não admitido

Neste exemplo, temos dois valores 1 se um aluno foi admitido e 0 se não foi admitido. Temos que gerar um modelo para prever se o aluno foi admitido ou não,. Para um determinado problema, admitido é considerado uma variável dependente, exam_1 e exam_2 são considerados como variáveis independentes. Para esse modelo, nosso código R é dado

 > Model_1<-glm(admitted ~ result_1 +result_2, family = binomial("logit"), data=data)

Vamos supor que temos dois resultados do aluno. Resultado-1 65% e resultado-2 90%, agora vamos predizer se o aluno consegue admissão ou não por estimar a probabilidade de o aluno conseguir admissão nosso código R é o seguinte:

 > in_frame<-data.frame(result_1=65,result_2=90) >prever (Model_1, in_frame, type = "resposta") Resultado: 0.9894302

A saída acima nos mostra a probabilidade entre 0 e 1. Se então for menor que 0.5 significa que o aluno não conseguiu admissão. Nesta condição, será FALSE. Se for maior que 0.5, a condição será considerada VERDADEIRA, o que significa que o aluno foi admitido. Temos que usar a função round () para prever a probabilidade entre 0 e 1.

O código R para isso é mostrado abaixo:

 > rodada (prever (Model_1, in_frame, type = "resposta")) [/ code] Saída: 1

Um aluno será admitido, pois o resultado é 1. Além disso, também podemos prever outras observações da mesma maneira.

Usando modelo de regressão logística (pontuação) com novos dados

Quando necessário, podemos salvar o modelo em um arquivo. O código R para nosso modelo de trem terá a seguinte aparência:

 the_model <- glm(my_formula, family=binomial(link='logit'),data=model_set)

Este modelo pode ser salvo com:

 salvar (arquivo = "nome do arquivo", the_file)

Você pode usar o arquivo depois de salvá-lo, usando aquele trecho do código R:

 carregar (arquivo = "nome do arquivo")

Para aplicar o modelo para novos dados, você pode usar esta linha de código:

 model_set $ pred <- predict(the_model, newdata=model_set, type="response")

NOTA: O model_set não pode ser atribuído a nenhuma variável. Para carregar um modelo, usaremos a função load (). Novas observações não vão mudar nada no modelo. O modelo permanecerá o mesmo. Usamos o modelo antigo para fazer previsões sobre os novos dados para não alterar nada no modelo.

Conclusão

Espero que você tenha visto como a programação em R funciona de maneira básica e como pode rapidamente entrar em ação fazendo aprendizado de máquina e codificação de estatísticas com R.