Tính đến năm 2022, 2,5 tỷ byte dữ liệu mới đang được tạo ra trên toàn thế giới mỗi ngày. Mặc dù một số dữ liệu này sẽ hữu ích để phân tích, nhưng nó có thể tốn thời gian và khó sắp xếp. Bằng cách tạo một kênh dữ liệu hiệu quả, bạn sẽ có thể dễ dàng lọc ra dữ liệu bạn cần.
Kênh dữ liệu là gì?
Một kênh dữ liệu đề cập đến việc thu hẹp số lượng dữ liệu bạn cho phép vào kho dữ liệu chính của mình.
Một cách tốt để suy nghĩ về một kênh dữ liệu là so sánh nó với các kênh tuyển dụng mà một công cụ nhân sự áp dụng khi nó sử dụng phần mềm để sàng lọc sơ yếu lý lịch của người nộp đơn xin việc. Nhân sự nhập các yêu cầu cho một vị trí mở vào một phần mềm phân tích sàng lọc sơ yếu lý lịch đến để tạo ra một kênh dữ liệu đến nhỏ hơn của người nộp đơn cho một vị trí nhất định. Điều này cho phép các nhà quản lý nhân sự và phỏng vấn tập trung vào các nhiệm vụ quan trọng hơn là chuyển lý lịch theo cách thủ công.
Phễu cũng hoạt động trên dữ liệu. Trong một trường hợp, một công ty khoa học đời sống nghiên cứu một phân tử cụ thể cho tiềm năng chống lại bệnh tật của nó đã loại bỏ tất cả các nguồn nghiên cứu dữ liệu đến mà không đề cập đến phân tử theo tên. Mục tiêu là để tiết kiệm lưu trữ và xử lý cũng như để đi đến thông tin chi tiết sớm hơn. Trong khi lọc ra tất cả các dữ liệu bên ngoài đó làm việc cho công ty này, kiểm soát một kênh dữ liệu là một hành động cân bằng giữa số lượng dữ liệu bạn cần so với số lượng dữ liệu bạn có thể đủ khả năng để lưu trữ và xử lý.
Làm thế nào để bạn quyết định dữ liệu nào là quan trọng?
Chi phí lưu trữ và xử lý tuyệt đối, cho dù đó là nội bộ hay trên đám mây, đang buộc các công ty phải đánh giá lượng dữ liệu họ cần cho phân tích kinh doanh.
Trong một số trường hợp, việc quyết định vứt bỏ dữ liệu nào là dễ dàng. Bạn có thể không muốn tiếng ồn của mạng và máy bắt tay trong dữ liệu của bạn, nhưng quyết định dữ liệu liên quan đến chủ đề nào để loại trừ là khó khăn hơn. Ngoài ra còn có nguy cơ các nhóm phân tích có thể bỏ lỡ một cái nhìn sâu sắc quan trọng vì dữ liệu bị loại trừ.
Ví dụ, sử dụng dữ liệu mà nó thường thu thập, một nhà bán lẻ ở Anh có thể không phát hiện ra rằng các bà nội trợ tại nhà đã thực hiện phần lớn các giao dịch mua hàng trực tuyến của họ trong khi chồng họ đi chơi bóng đá.
Ví dụ như cái nhìn sâu sắc bất ngờ nhưng có tác động này là lý do tại sao các nhóm kinh doanh CNTT và kết thúc phải cẩn thận khi đưa ra quyết định về việc họ thu hẹp kênh cho dữ liệu đến bao nhiêu.
3 cách tốt nhất để kiểm soát kênh dữ liệu
1./ Phác thảo các trường hợp sử dụng mà phân tích của bạn đang hỗ trợ và dữ liệu mà bạn nghĩ rằng họ cần
Đây nên là một bài tập hợp tác giữa khoa học CNTT / dữ liệu và người dùng cuối. Bạn có muốn bao gồm các khiếu nại về sản phẩm truyền thông xã hội khi bạn đang phân tích dữ liệu doanh thu và doanh thu của mình không? Và nếu bạn đang nghiên cứu tỷ lệ bệnh trong khu vực dịch vụ y tế của bạn ở New York, bạn có quan tâm đến những gì đang xảy ra ở California không?
2./ Xác định mức độ chính xác mà phân tích của bạn cần phải có
Tiêu chuẩn vàng cho độ chính xác của phân tích là phân tích phải đạt độ chính xác ít nhất 95% khi so sánh với những gì các chuyên gia về chủ đề con người sẽ kết luận – nhưng bạn có luôn cần 95%?
Bạn có thể cần độ chính xác 95% nếu bạn đang đánh giá khả năng chẩn đoán y tế dựa trên một số tình trạng sức khỏe của bệnh nhân nhất định, nhưng độ chính xác 70% chỉ có thể cần thiết nếu bạn dự báo điều kiện khí hậu có thể như thế nào trong 20 năm kể từ bây giờ.
Các yêu cầu về độ chính xác có ảnh hưởng đến kênh dữ liệu và bạn có thể loại trừ nhiều dữ liệu hơn và thu hẹp kênh của mình nếu bạn chỉ tìm kiếm các xu hướng chung, dài hạn.
3./ Kiểm tra tính chính xác của phân tích của bạn một cách thường xuyên
Nếu phân tích của bạn cho thấy độ chính xác 95% khi lần đầu tiên được thực hiện, nhưng giảm xuống còn 80% theo thời gian, việc kiểm tra lại dữ liệu bạn đang sử dụng và hiệu chỉnh lại kênh dữ liệu là hợp lý.
Có lẽ các nguồn dữ liệu mới không có sẵn ban đầu hiện đã có sẵn và nên được sử dụng. Thêm các nguồn dữ liệu này sẽ mở rộng kênh dữ liệu, nhưng nếu nó làm tăng mức độ chính xác, việc mở rộng kênh dữ liệu là đáng giá.
Đăng nhận xét
Đăng nhận xét