Introducere în programarea statistică cu R

Cuprins
R este un limbaj de programare statistic, este gratuit și open source. Este utilizat în principal pentru operațiunile de minerit de date sau statistici, toate acestea cu scopul de a crea aplicații pentru analiza unor cantități mari de date.
Interfața liniei de comandă a R La început poate fi oarecum intimidant, dar acest lucru este umbrit după ce am apreciat puterea și posibilitățile pe care le oferă limbajul de a împărtăși și reproduce analiza informațiilor.
R Poate fi descărcat gratuit pentru toate platformele gratuite care există astăzi, avem posibilitatea să îl instalăm în Windows, Linux și chiar Mac.
În scopul acestui tutorial vom folosi versiunea pentru Windows pe care o putem găsi pe pagina oficială a proiectului în următorul link. După descărcare și instalare, vom avea copia noastră funcțională a R, dacă îl executăm, vom avea ecranul inițial de R care ar trebui să arate astfel:

R Ne permite să lucrăm cu date într-un mod rapid și eficient, totuși interfața sa implicită nu este perfectă pentru această sarcină. Una dintre probleme este că totul se deschide în ferestre separate, ceea ce face dificilă funcționarea și, de asemenea, interfața liniei de comandă nu este aceeași în toate sistemele de operare.
Deși există multe interfețe pentru a rezolva această problemă, în acest tutorial vom folosi RStudio care este disponibil pentru toate platformele, dar este important de menționat că este necesar să aveți R instalat înainte de instalare, pentru a obține versiunea de Windows mergem la următorul link și descărcăm versiunea corespunzătoare.
După instalare executăm RStudio și ar trebui să vedem interfața principală:

RStudio ne oferă organizarea tuturor ferestrelor din R într-un singur panou și ne oferă în plus acces la funcții care pot fi greu de găsit, pe lângă acestea putem menționa și alte avantaje suplimentare:
  • Să ne împărțim munca în Proiecte unde fiecare dintre acestea va avea directorul de lucru, istoricul și fișierele sursă.
  • Integrare cu GitHub.
  • Vă permite să stocați grafic o poveste.
  • Puteți exporta grafica în diferite formate și dimensiuni.
  • Ne permite să completăm codul cu tasta tabelară.
  • Puteți crea diagrame interactive datorită anumitor pachete.
După cum vedem RStudio este un mod destul de optim de a lucra cu RCu toate acestea, există și alte soluții pe piață, revine fiecărei persoane să le investigheze și să evalueze dacă acestea sunt mai bine adaptate nevoilor fiecărei persoane.
Există mai multe moduri de a lucra R unde primul lucru pe care îl vom aborda este Consolă RÎn ciuda faptului că nu putem stoca munca depusă aici, este destul de util să testăm unele funcții și să începem să ne familiarizăm cu limba.
Lucrul cu consola este destul de simplu, introducem o comandă și apoi R ne dă rezultatul, să încercăm o operație de adăugare simplă, cum ar fi următoarea:
> 10 + 7

Împingem introduce și automat R În rândul următor ne oferă răspunsul la operațiunea noastră:

După cum putem vedea în imagine, prima linie conține comanda cu operația noastră, este important să menționăm acest lucru R nu necesită utilizarea punctului și virgula pentru a termina linia sau orice alt operator de terminare. Putem vedea în a doua linie înainte de răspuns răspunsul [1] aceasta indică modul în care R efectuează operații aritmetice și folosește vector, unul înseamnă indicele primului element al vectorului, unde putem evidenția faptul că multe alte limbi se ocupă de indexuri de la zero, dar R o face de la unul.
Așa cum am menționat mai devreme, consola este destul de utilă, dar nu este cea mai bună pentru a lucra, în principal pentru că nu are posibilitatea de a stoca comenzile noastre și capacitatea de a introduce o singură comandă la un moment dat, se întâmplă ceva similar cu Piton, dar nu ar trebui să ne facem griji de atunci RStudio ne dă fereastra script situată în partea superioară a consolei noastre, dacă nu o găsim, mergem la Fișier> Fișier nou> Script R sau apăsați Shift + Comandă + N.
Practic un script R este text simplu cu extensia .R. Pentru a vedea cum funcționează, putem recrea operația noastră aritmetică din exemplul anterior, creând un nou script și adăugând mai multe linii de comandă suplimentare, să vedem:
 10 + 7 1:50 print („Hello World”) 

A R script puteți rula linie cu linie cu opțiunea pe care o avem în meniul superior numit Alerga și vom vedea ieșirea aceluiași în consolă, să vedem răspunsul pentru fiecare linie a scriptului nostru:

Cum putem vedea prima linie ne dă rezultatul obținut anterior, a doua linie creează o listă de numere de la 1 la 50 în care numărul dintre paranteze este primul index pentru acea linie și în final avem impresia clasicului Salut Lume.
După ce vom vedea modalitățile prin care putem lucra cu limbajul, vom trece la concepte mai teoretice pentru a înțelege mai bine ce avem la dispoziție în limbaj pentru a lucra și a ne executa proiectele.
Ca în toate limbajele de programare, variabile sunt unul dintre cele mai importante aspecte, pentru a le crea în R Trebuie doar să scriem numele acestuia fără a defini tipul. Noi folosim operator de misiune pentru a da valoarea variabilei.
ImportantPutem atribui valoarea unei variabile cu semnul egal, dar aceasta este o practică proastă în R, pentru a efectua misiunea corectă, utilizați operatorul <-.
Să vedem cum arată atribuirea unei valori unei variabile și apoi imprimarea acesteia:
 x <- 58 x 

De asemenea, putem atribui mai multe valori variabilelor noastre cu funcția de concatenare:
y <- c (5, 2, 11, 28, 17)

Dacă rulăm exemplul, vom vedea în panoul din dreapta cum avem valoarea lui X și lista numerică atribuită Da:

MARI

În plus, pentru a elimina o variabilă din spațiul de lucru, trebuie doar să folosim funcția rm, putem chiar curăța întregul spațiu de lucru, să vedem cum facem acest lucru:
 rm (x) rm (list = ls ()) 

Cu prima linie eliminăm variabila și cu a doua linie tot spațiul.
În limbaj avem patru structuri de date, care sunt recunoscute de R:
Vector de desene animateUn vector este un tablou unidimensional în care toate datele prezente în acesta trebuie să fie de același tip, număr întreg, caracter etc., în plus, este important să rețineți că acesta este obiectul de date de bază din R.
Matrice și matriceO matrice este similară cu un vector în care datele trebuie să fie de același tip, cu toate acestea matricea are două dimensiuni, iar informațiile sunt organizate în rânduri și coloane. Matricea este similară matricei, dar poate avea mai mult de două dimensiuni.
Cadrele de dateCadrele de date sunt o colecție de vectori de aceeași lungime, este similară cu matricea, dar particularitatea acestui tip de structură este că pot fi de tipuri de date mixte, unde vectorii pot avea chiar nume.
ListeCel mai generic tip de structură din R, o listă este o colecție de elemente din orice clasă, lungime sau structură, putem avea chiar și alte liste.
Mai departe, R Are mai multe funcții care ne permit să convertim un tip de structură în altul, să vedem:
as.vector ()Această funcție vă permite să convertiți matrici în vectori unidimensionali.
as.matrix ()Puteți converti structurile de date într-o matrice.
as.data.frame ()Puteți converti structurile de date în cadre de date.
as.list ()Puteți converti structurile de date în liste.
Unul dintre punctele forte ale R este că puteți adăuga pachete care ne permit să extindem funcționalitățile limbii. În alte limbi, aceste pluginuri vin în biblioteci, dar în R biblioteca este locul unde sunt stocate toate pachetele.
pachete de R pot veni din două locuri diferite, unele vin cu R în mod implicit, dar nu sunt active, iar altele pot fi găsite în depozitele online.
Pentru a vedea pachetele care sunt instalate sau încărcate în prezent, putem executa următoarele funcții:
 bibliotecă () căutare () 

Functia biblioteca () ne aduce o listă a pachetelor care sunt instalate în prezent, să vedem o parte din ceea ce ne aruncă atunci când executăm această linie:

Functia căutare () Pe de altă parte, ne arată prin consolă pachetele care sunt încărcate în prezent, să vedem în imaginea următoare ce pachete am încărcat:

În plus, pentru a instala pachete o putem face prin mai multe moduri, prima este prin opțiunea din meniul de sus Instrumente> Instalare pachete și apoi avem prin funcții ale limbajului, acesta din urmă este cel pe care îl recomandăm, deoarece poate fi astfel parte a scriptului nostru.
Pentru a instala un pachet pe care îl folosim instalați.pachete, după aceasta trebuie să îl includem, putem folosi bibliotecă sau solicita Pentru aceasta, totuși, este mai bine să îl folosiți pe acesta din urmă pentru a evita confuzia cu domeniul de aplicare al funcțiilor, să vedem cum instalăm și includem pachetul ggplot2:
 install.packages ("ggplot2") require ("ggplot2") 

În cele din urmă pentru a șterge un pachet pe care îl putem folosi scoate.pachete, să vedem cum este folosit:
remove.packages ("ggplot2")

Cu aceasta încheiem acest tutorial, cu care avem deja o noțiune despre cum să lucrăm R, pe lângă faptul că avem puncte clarificate precum variabile și structuri de date, aspecte esențiale pe care trebuie să le cunoaștem pentru a profita din plin de acest limbaj puternic și eficient.V-a plăcut și ați ajutat acest tutorial?Puteți recompensa autorul apăsând acest buton pentru a-i oferi un punct pozitiv
wave wave wave wave wave