1. EducationMathStatisticsStatistics and Histograms
Skoroszyt statystyczny dla manekinów z praktyką online, wydanie drugie

Przez Deborah J. Rumsey

Histogram to wykres słupkowy stworzony dla danych ilościowych. Ponieważ dane są liczbowe, dzielisz je na grupy, nie pozostawiając żadnych przerw między nimi (tak więc słupki są połączone). Oś Y pokazuje częstotliwości (liczby) lub częstotliwości względne (procenty) danych, które mieszczą się w każdej grupie.

Jak stworzyć histogram

Aby utworzyć histogram, najpierw podziel dane na rozsądną liczbę grup o równej długości. Zsumuj liczbę wartości w zbiorze danych, które mieszczą się w każdej grupie (innymi słowy, utwórz tabelę częstotliwości). Jeśli punkt danych spadnie na granicę, podejmij decyzję, do której grupy go umieścić, upewniając się, że pozostaniesz spójny (zawsze umieszczaj go na wyższym z nich lub zawsze na niższym z nich). Zrób wykres słupkowy, używając grup i ich częstotliwości - histogram częstotliwości.

Jeśli podzielisz częstotliwości przez całkowitą wielkość próbki, otrzymasz procent, który przypada na każdą grupę. Tabela przedstawiająca grupy i ich procenty jest tabelą częstotliwości względnej. Odpowiedni histogram to histogram częstotliwości względnej.

Do tworzenia histogramów możesz użyć programu Minitab lub innego pakietu oprogramowania lub możesz ręcznie wykonać histogramy. Tak czy inaczej, wybór szerokości przedziałów (nazywanych pojemnikami przez pakiety komputerowe) może różnić się od tych pokazanych na rysunkach, co jest w porządku, o ile twój wygląda podobnie. I będą, o ile nie użyjesz wyjątkowo niskiej lub wysokiej liczby pasków, a twoje paski będą równej szerokości.

Możesz również wybrać różne punkty początkowe / końcowe dla każdego interwału, i to też jest w porządku. Pamiętaj tylko, aby oznaczyć wszystko wyraźnie, aby instruktor mógł zobaczyć, co próbujesz zrobić. I bądź konsekwentny w kwestii wartości, które kończą się na granicy; zawsze umieszczaj je w niższej grupie lub zawsze umieszczaj w wyższej grupie. Jeśli jednak masz wybór, wykonaj histogramy, używając pakietu komputerowego takiego jak Minitab. To znacznie ułatwia zadanie.

Poniżej przedstawiono przykład tworzenia dwóch typów histogramów.

Wyniki testu dla klasy 30 uczniów pokazano w poniższej tabeli.

Histogramy częstotliwości i histogramy częstotliwości względnej wyglądają tak samo; po prostu zrobiono to przy użyciu różnych skal na osi Y.

Histogram częstotliwości danych wyników pokazano na poniższym rysunku.

histogram częstotliwości

Częstotliwości względne można znaleźć, biorąc każdą częstotliwość i dzieląc ją przez 30 (całkowity rozmiar próbki). Względne częstotliwości dla tych trzech grup wynoszą 8/30 = 0,27 lub 27%; 16/30 = 0,53 lub 53%; i 6/30 = odpowiednio 0,20 lub 20%.

Histogram oparty na częstotliwościach względnych wygląda tak samo jak histogram (tych samych danych). Jedyną różnicą jest etykieta na osi Y.

Zrozumienie histogramów

Histogram zawiera ogólne informacje o trzech głównych cechach danych ilościowych (liczbowych): kształcie, środku i rozkładzie.

Kształt histogramu jest pokazany przez jego ogólny wzór. Możliwych jest wiele wzorów, a niektóre są powszechne, w tym następujące:

  • W kształcie dzwonu: Wygląda jak dzwon - duża bryła pośrodku i ogony opadające z każdej strony z mniej więcej taką samą prędkością. (Rysunek a) Przekrzywiony w prawo: duża część danych jest przesunięta w lewo, a kilka większych obserwacji - w prawo. (Rysunek b) Przekrzywiony w lewo: duża część danych jest przesunięta w prawo, a kilka mniejszych obserwacji w lewo. (Rysunek c) Jednolity: wszystkie paski mają podobną wysokość. (Rysunek d) Bimodal: dwa szczyty lub (ryc. E) U-kształtny: bimodalny z dwoma pikami na dolnym i górnym końcu, z mniejszą ilością danych na środku. (Patrz rysunek 4-1 (rysunek f) Symetryczny: wygląda tak samo z każdej strony, kiedy dzielisz go na środek; Histogramy w kształcie dzwonu, jednolite i w kształcie litery U są przykładami danych symetrycznych. (Ryciny a, d i f)
typowe wzory histogramów

Środek histogramu można wyświetlić na dwa sposoby. Jednym z nich jest punkt na osi X, w którym wykres równoważy się, biorąc pod uwagę rzeczywiste wartości danych. Ten punkt nazywa się średnią i można go znaleźć, lokalizując punkt równoważenia (wyobraź sobie, że dane znajdują się w chwiejnym punkcie). Innym sposobem wyświetlenia centrum jest zlokalizowanie linii na histogramie, w której 50 procent danych leży po obu stronach. Linia nazywana jest medianą i reprezentuje fizyczny środek zestawu danych. Wyobraź sobie przecięcie histogramu na pół, tak aby połowa obszaru znajdowała się po obu stronach linii.

Spread odnosi się do odległości między danymi, albo względem siebie, albo względem jakiegoś centralnego punktu. Jednym prymitywnym sposobem pomiaru rozpiętości jest znalezienie zakresu lub odległości między największą wartością a najmniejszą wartością. Innym sposobem jest znalezienie średniej odległości od środka, znanej również jako odchylenie standardowe. Odchylenie standardowe trudno jest wymyślić, patrząc tylko na histogram, ale możesz uzyskać ogólny pomysł, jeśli weźmiesz zasięg podzielony przez 6. Jeśli wysokości słupków blisko środka wydają się bardzo wysokie, oznacza to, że większość wartości są zbliżone do średniej, co wskazuje na niewielkie odchylenie standardowe. Jeśli słupki wydają się krótkie, może być większe odchylenie standardowe.

Możesz wykonać rzeczywiste statystyki podsumowujące, aby obliczyć dane ilościowe, ale histogram może dać ogólny kierunek znalezienia tych kamieni milowych. Podobnie jak wykresy kołowe i wykresy słupkowe, nie wszystkie histogramy są uczciwe, kompletne i dokładne. Musisz wiedzieć, czego szukać, aby je ocenić.

Jak wyprostować wypaczone dane za pomocą histogramów

Należy zwrócić szczególną uwagę na skośne zestawy danych, pod kątem tego, które statystyki najlepiej wykorzystać i kiedy. Powinieneś także wiedzieć, jak niewłaściwe statystyki mogą dostarczyć mylących odpowiedzi.

Możesz powiązać średnią i medianę, aby dowiedzieć się o kształcie swoich danych. Posiadanie średniej i mediany zbliżonej do bycia równym stworzy kształt, który jest w przybliżeniu symetryczny

Na wartości średnie mają wpływ wartości odstające w danych, ale mediana nie. Jeśli średnia i mediana są blisko siebie, dane nie są wypaczone i prawdopodobnie nie zawierają wartości odstających po jednej lub drugiej stronie. Oznacza to, że dane wyglądają tak samo po każdej stronie środka, co jest definicją danych symetrycznych (patrz a, d lub f na poprzednim rysunku).

Fakt, że średnia i mediana bliskości mówi ci, że dane są w przybliżeniu symetryczne, można wykorzystać w innym typie pytania testowego. Załóżmy, że ktoś pyta Cię, czy dane są symetryczne, i nie masz histogramu, ale masz średnią i medianę. Porównaj dwie wartości średniej i mediany, a jeśli są bliskie, dane są symetryczne. Jeśli nie są, dane nie są symetryczne.

Jak rozpoznać mylący histogram

Histogram może wprowadzać czytelników w błąd w sposób, który nie jest możliwy w przypadku wykresu słupkowego. Pamiętaj, że histogram dotyczy danych liczbowych, a nie danych kategorycznych, co oznacza, że ​​musisz określić, w jaki sposób dane liczbowe zostaną podzielone na grupy, aby były wyświetlane na osi poziomej. A jak określisz te grupy, może sprawić, że wykres będzie wyglądał zupełnie inaczej. Uważaj na histogramy, które używają skali do wprowadzania czytelników w błąd. Podobnie jak w przypadku wykresów słupkowych, można wyolbrzymiać różnice, używając mniejszej skali na osi pionowej histogramu, i można pomijać różnice, używając większej skali.