Boxplot Là Gì

     

Hình ảnh trên là 1 trong những ô vuông . Biểu đồ hộp là 1 trong cách tiêu chuẩn hóa nhằm hiển thị phân phối dữ liệu dựa trên tóm tắt năm số (“tối thiểu”, phần tư thứ nhất (Q1), trung vị, phần bốn thứ bố (Q3) và “tối đa”). Nó gồm thể cho bạn biết về phần đa ngoại lệ của doanh nghiệp và cực hiếm của chúng. Nó cũng có thể có thể cho bạn biết liệu dữ liệu của bạn có đối xứng giỏi không, dữ liệu của công ty được nhóm ngặt nghèo như vắt nào cùng nếu và phương pháp dữ liệu của doanh nghiệp bị lệch.

Bạn đang xem: Boxplot là gì

Bạn đã xem: Boxplot là gì

Hướng dẫn này sẽ bao gồm:

Boxplot là gì? phát âm giải phẫu của một ô vuông bằng phương pháp so sánh một ô vuông cùng với hàm tỷ lệ xác suất cho một trưng bày chuẩn. Làm nắm nào để bạn tạo và lý giải các hộp đồ gia dụng trang bởi Python? Boxplot là gì?

Đối với một trong những phân phối / cỗ dữ liệu, các bạn sẽ thấy rằng bạn phải nhiều thông tin hơn là các thước đo của xu hướng trung trọng điểm (trung bình, trung bình và chế độ).


*

Đôi khi, quý hiếm trung bình, quý giá trung bình và cơ chế không đủ để mô tả một tập dữ liệu (lấy tự đây).

Bạn cần phải có thông tin về sự chuyển đổi hoặc phân tán của dữ liệu. Biểu đồ hình hộp là 1 trong những biểu thứ cung cấp cho mình dấu hiệu giỏi về cách các giá trị trong tài liệu được trải ra. Tuy vậy biểu đồ vật hộp dường như nguyên thủy đối với biểu đồ hoặc biểu đồ mật độ , mà lại chúng hữu dụng thế là chỉ chiếm ít không gian hơn, điều đó rất có lợi khi đối chiếu phân phối giữa các nhóm hoặc tập dữ liệu.


*

những phần khác biệt của một boxplot

Boxplots là một trong cách tiêu chuẩn hóa để hiển thị phân phối dữ liệu dựa vào tóm tắt năm số (“tối thiểu”, phần tư trước tiên (Q1), trung vị, phần tư thứ bố (Q3) và “tối đa”).

trung vị (Phần trăm đồ vật 2/50) : giá trị giữa của tập dữ liệu.

phần tư thứ nhất (Phần trăm q1 / 25) : số ở chính giữa giữa số nhỏ nhất (không cần số "tối thiểu") với số vừa phải của tập dữ liệu.

phần bốn thứ tía (Phần trăm máy 3/75) : giá chỉ trị trọng tâm giữa cực hiếm trung bình với giá trị tối đa (không đề xuất "tối đa") của tập dữ liệu.

phạm vi liên phân vị (IQR) : phân vị trang bị 25 đến 75.

râu (màu xanh lam)

ngoại lệ (được hiển thị dưới dạng vòng tròn màu xanh lá cây lục)

"Tối đa" : quận 3 + 1.5 * IQR

"Tối thiểu" : q.1 -1,5 * IQR

Điều gì khẳng định ngoại lệ, "tối thiểu" hoặc "tối đa" hoàn toàn có thể chưa rõ ràng. Phần tiếp theo sau sẽ cố gắng làm rõ điều này cho bạn.

Boxplot bên trên phân phối thông thường
*

đối chiếu biểu đồ hộp tất cả phân phối gần chuẩn và hàm mật độ xác suất (pdf) cho phân phối chuẩn chỉnh

Hình hình ảnh trên là sự việc so sánh giữa biểu vật hình hộp gồm phân phối gần chuẩn và hàm mật độ xác suất (pdf) cho phân phối chuẩn. Tại sao tại sao tôi cho mình xem hình hình ảnh này là câu hỏi xem xét một triển lẵm thống kê thông dụng hơn là xem một biểu đồ vật hình hộp. Nói bí quyết khác, nó hoàn toàn có thể giúp chúng ta hiểu về một boxplot.

Phần này sẽ bao gồm nhiều máy bao gồm:

mức độ ngoại lệ thế nào (đối với bày bán chuẩn) .7% dữ liệu. "Tối thiểu" và "tối đa" là gì

Phần này của bài đăng khôn xiết giống với bài viết quy tắc 68–95–99.7 , cơ mà được điều chỉnh cho một cốt truyện. Để rất có thể hiểu phần trăm đến trường đoản cú đâu, điều đặc trưng là phải biết về hàm tỷ lệ xác suất (PDF). Một PDF được thực hiện để xác định xác suất của biến thốt nhiên rơi xuống trong một phạm vi ví dụ của những giá trị , như trái ngược với thâm nhập vào bất kỳ giá trị một. Xác suất này được cho bởi tích phân của PDF của trở nên này bên trên phạm vi đó - nghĩa là, nó được hỗ trợ bởi diện tích s dưới hàm mật độ nhưng nằm trong trục hoành cùng giữa giá trị thấp tuyệt nhất và lớn số 1 của phạm vi. Định nghĩa này rất có thể không bao gồm nhiều ý nghĩa sâu sắc vì vậy hãy nắm rõ nó bằng cách vẽ trang bị thị hàm mật độ xác suất mang đến một trưng bày chuẩn. Phương trình dưới đấy là hàm tỷ lệ xác suất cho cung cấp chuẩn


*

PDF mang đến một bản phân phối thông thường

Hãy đơn giản hóa nó bằng phương pháp giả sử họ có vừa đủ (μ) là 0 với độ lệch chuẩn chỉnh (σ) là 1.


*

PDF đến một bản phân phối thường thì

Điều này có thể được vẽ bằng bất kỳ thứ gì, tuy nhiên tôi lựa chọn vẽ biểu đồ bằng Python.

Xem thêm: Mùng 8 Tháng 3 Tặng Quà Gì Cho Bạn Gái Mới Quen, Tặng Quà 8/3 Cho Bạn Gái Mới Quen, Nên Mua Gì

# Import all libraries for this portion of the blog postfrom scipy.integrate import quadimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlinex = np.linspace(-4, 4, num = 100)constant = 1.0 / np.sqrt(2*np.pi)pdf_normal_distribution = constant * np.exp((-x**2) / 2.0)fig, ax = plt.subplots(figsize=(10, 5));ax.plot(x, pdf_normal_distribution);ax.set_ylim(0);ax.set_title("Normal Distribution", form size = 20);ax.set_ylabel("Probability Density", kích cỡ = 20);

# Make PDF for the normal distribution a functiondef normalProbabilityDensity(x): constant = 1.0 / np.sqrt(2*np.pi) return(constant * np.exp((-x**2) / 2.0) )# Integrate PDF from -.6745 lớn .6745result_50p, _ = quad(normalProbabilityDensity, -.6745, .6745, limit = 1000)print(result_50p)

# Make a PDF for the normal distribution a functiondef normalProbabilityDensity(x): constant = 1.0 / np.sqrt(2*np.pi) return(constant * np.exp((-x**2) / 2.0) )# Integrate PDF from -2.698 khổng lồ 2.698result_99_3p, _ = quad(normalProbabilityDensity, -2.698, 2.698, limit = 1000)print(result_99_3p)

Phần này phần nhiều dựa trên video xem trước miễn giá thành từ khóa huấn luyện và đào tạo Python đến Trực quan tiền hóa tài liệu của tôi . Vào phần trước, bọn họ đã xem xét một ô vuông trên triển lẵm chuẩn, nhưng vì bạn cụ thể không đề nghị lúc nào cũng đều có một phân phối chuẩn cơ bản, hãy liếc qua cách thực hiện một ô vuông bên trên một tập dữ liệu thực. Để làm cho điều này, chúng tôi sẽ sử dụng Bộ tài liệu Wisconsin (Chẩn đoán) Ung thư vú . Nếu khách hàng không có tài năng khoản Kaggle, bạn cũng có thể tải xuống bộ dữ liệu từ github của mình .

Đọc trong dữ liệu

Đoạn mã dưới đây đọc dữ liệu vào khung tài liệu gấu trúc.

import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt# Put dataset on my github repo df = pd.read_csv("https://raw.githubusercontent.com/mGalarnyk/Python_Tutorials/master/Kaggle/BreastCancerWisconsin/data/data.csv") Biểu đồ vật hình vỏ hộp được sử dụng dưới để phân tích mối quan hệ giữa một điểm sáng phân nhiều loại (khối khối u ác tính hoặc lành tính) và một đặc điểm liên tục (area_mean).

Có một số cách để vẽ đồ gia dụng thị hình hộp trải qua Python. Bạn có thể vẽ biểu thiết bị hình hộp trải qua seaborn, matplotlib hoặc gấu trúc.

sơ sinh

Đoạn mã dưới đây chuyển khung dữ liệu gấu trúc dfvào seaborn"s boxplot.

sns.boxplot(x="diagnosis", y="area_mean", data=df) những hộp đấu chúng ta đã thấy trong bài viết này được tiến hành thông qua matplotlib. Giải pháp tiếp cận này có thể tẻ nhạt rộng nhiều, nhưng có thể cung cấp cho chính mình mức độ điều hành và kiểm soát cao hơn.

malignant = df=="M">benign = df=="B">fig = plt.figure()ax = fig.add_subplot(111)ax.boxplot(, labels=) bạn cũng có thể vẽ một boxplot bằng cách gọi .boxplot()trên DataFrame của bạn. Đoạn mã tiếp sau đây tạo một ô vuông của area_meancột liên quan đến những chẩn đoán không giống nhau.

df.boxplot(column = "area_mean", by = "diagnosis");plt.title("") Ô hộp gồm khía có thể chấp nhận được bạn đánh giá khoảng tin cẩn (theo khoác định là khoảng tin tưởng 95%) cho các trung điểm của mỗi ô vuông.

malignant = df=="M">benign = df=="B">fig = plt.figure()ax = fig.add_subplot(111)ax.boxplot(, notch = True, labels=); Khoa học tài liệu là về truyền đạt kết quả, vì vậy hãy ghi nhớ rằng chúng ta luôn hoàn toàn có thể làm cho những hộp của mình đẹp hơn một chút ít với một chút công việc (mã ở đây ).

Sử dụng biểu đồ, bạn cũng có thể so sánh phạm vi với sự phân bổ của area_mean để chẩn đoán ác tính với lành tính. Chúng tôi quan giáp thấy rằng tất cả một sự biến đổi lớn hơn so với vùng_mạch u ác tính cũng giống như các ngoại lệ khủng hơn.

Xem thêm: Nourishing Là Gì ?, Từ Điển Tiếng Anh Nourishing Là Gì, Nghĩa Của Từ Nourishing

Dưới đây là một số điều khác cần xem xét về các hộp đấu:

Matplotlib không mong tính phân phối chuẩn trước tiên và đo lường và thống kê các phần tứ từ các tham số cung cấp ước tính. Quý giá trung bình cùng phần tứ được giám sát và đo lường trực tiếp trường đoản cú dữ liệu. Nói biện pháp khác, sơ đồ vật hộp của chúng ta cũng có thể trông không giống tùy thuộc vào sự phân bố dữ liệu của người sử dụng và form size của mẫu, ví dụ: không đối xứng và có nhiều hoặc ít ngoại lệ.

Hy vọng rằng đây chưa phải là rất nhiều thông tin về ô hộp. Các hướng dẫn trong tương lai sẽ lấy một vài kiến ​​thức này và xem xét cách áp dụng nó để hiểu các khoảng tin cậy. Hướng dẫn tiếp theo của tôi là Cách sử dụng và chế tạo ra Bảng Z (bảng thường thì tiêu chuẩn) . Nếu khách hàng có bất kỳ câu hỏi hoặc quan tâm đến nào về hướng dẫn, vui lòng tương tác với những nhận xét bên dưới, trải qua trang video clip YouTube hoặc trải qua Twitter .

Japanese Spanish German French bầu Portuguese Russian Vietnamese Italian Korean Turkish Indonesian Polish Hindi

bài xích đọc sau chỉ cần tài liệu nghệ thuật về thuật toán cơ phiên bản của bọn chúng tôi. Thành phầm phụ của quá trình này được áp dụng để cung ứng cho học sinh trải nghiệm xúc tiến về tác dụng của việc đăng bài bác trực tuyến.

Xin xin chào Nhân! Đây là một vài mới từ bạn dạng tin hàng tuần của tôi, chứa một tập hợp nhỏ gồm những bài báo thú vị từ tuần trước, các dự án, gợi ý và công cụ; tất cả liên quan mang lại Dữ liệu, Trí tuệ nhân tạo và những chủ đề ngay tắp lự kề. καλή όρεξη!