Nhập môn Khai phá dữ liệu và máy học IT61 EHOU

Môn học Nhập môn Khai phá dữ liệu và Máy học IT61 tại EHOU sẽ mở ra cánh cửa đến hai lĩnh vực “hot” và đầy tiềm năng nhất của khoa học dữ liệu hiện nay: Khai phá dữ liệu (Data Mining)Học máy (Machine Learning). Chúng ta sẽ cùng nhau khám phá cách biến những khối dữ liệu khổng lồ thành thông tin giá trị và xây dựng các hệ thống có khả năng tự học hỏi, đưa ra dự đoán hoặc quyết định mà không cần được lập trình tường minh.


Khai phá dữ liệu: Biến dữ liệu thô thành tri thức

Trong phần Khai phá dữ liệu, bạn sẽ tìm hiểu về các kỹ thuật và quy trình để khám phá các mẫu ẩn, xu hướng và thông tin hữu ích từ các tập dữ liệu lớn. Các chủ đề chính bao gồm:

  • Tổng quan về khai phá dữ liệu: Định nghĩa, mục tiêu, ứng dụng thực tế trong kinh doanh, y tế, tài chính, v.v.
  • Các bước trong quy trình khai phá dữ liệu: Từ thu thập dữ liệu, làm sạch và tiền xử lý dữ liệu, chọn lọc đặc trưng, đến ứng dụng thuật toán và đánh giá kết quả.
  • Các kỹ thuật khai phá dữ liệu phổ biến:
    • Luật kết hợp (Association Rule Mining): Tìm kiếm mối quan hệ giữa các mục (ví dụ: “những khách hàng mua bia thường mua tã”).
    • Phân cụm (Clustering): Gom nhóm các điểm dữ liệu tương tự lại với nhau mà không có nhãn trước (ví dụ: phân khúc khách hàng).
    • Phân lớp (Classification): Xây dựng mô hình dự đoán nhãn cho dữ liệu mới dựa trên dữ liệu đã được gán nhãn (ví dụ: dự đoán khách hàng có rời bỏ dịch vụ hay không).

Học máy: Dạy máy tính cách học

Trong phần Máy học, bạn sẽ được giới thiệu các thuật toán cho phép hệ thống máy tính học hỏi từ dữ liệu mà không cần được lập trình cụ thể cho từng tác vụ. Các nội dung chính bao gồm:

  • Giới thiệu về Học máy: Các loại hình học máy (có giám sát, không giám sát, bán giám sát, tăng cường).
  • Học máy có giám sát (Supervised Learning):
    • Hồi quy (Regression): Dự đoán một giá trị liên tục (ví dụ: dự đoán giá nhà, doanh số bán hàng). Các thuật toán: Hồi quy tuyến tính (Linear Regression).
    • Phân loại (Classification): Dự đoán một nhãn hoặc danh mục (ví dụ: phân loại email spam/không spam, nhận diện đối tượng trong ảnh). Các thuật toán: Cây quyết định (Decision Trees), K-Nearest Neighbors (KNN), Hồi quy Logistic (Logistic Regression).
  • Học máy không giám sát (Unsupervised Learning):
    • Phân cụm (Clustering): Nhóm dữ liệu không có nhãn (tương tự như trong Khai phá dữ liệu nhưng tập trung vào thuật toán học máy). Các thuật toán: K-Means.
  • Đánh giá mô hình: Các chỉ số đo lường hiệu suất của mô hình học máy (độ chính xác, độ đúng, độ phủ, F1-score cho phân loại; RMSE, MAE cho hồi quy).

Thực hành và ứng dụng

Môn học sẽ không chỉ dừng lại ở lý thuyết mà còn chú trọng vào thực hành thông qua các bài tập và ví dụ sử dụng các công cụ và thư viện lập trình phổ biến (ví dụ: Python với các thư viện như Scikit-learn, Pandas, NumPy). Bạn sẽ có cơ hội tự tay xây dựng các mô hình khai phá dữ liệu và học máy đơn giản để giải quyết các bài toán thực tế.

Với sự hướng dẫn tận tâm của giảng viên và sự chủ động nghiên cứu, thực hành của bạn, môn học Nhập môn Khai phá dữ liệu và Máy học IT61 sẽ cung cấp cho bạn nền tảng vững chắc để tiếp tục khám phá sâu hơn các lĩnh vực này, mở ra nhiều cơ hội nghề nghiệp trong kỷ nguyên dữ liệu. Chúc bạn có một hành trình học tập hiệu quả và gặt hái được nhiều thành công!

Mẹo Nhỏ Nên Đọc Qua

1. Để tìm kết quả nhanh thì nên sử dụng Máy Tính thay vì Điện Thoại.

2. Sau khi Sao chép (Copy) câu hỏi thì bấm “Ctrl + F” và Dán (Paste) câu hỏi vào ô tìm kiếm sẽ thấy câu cả lời. (Copy nguyên câu không ra thì thử vài từ để kiếm)

3. Trường hợp không tìm thấy câu hỏi. Lúc này vui lòng kéo xuống dưới cùng để đặt câu hỏi mục bình luận. Sẽ được trả lời sau ít phút.

4. Xem danh sách đáp án Trắc nghiệm EHOU

5. THAM GIA KHẢO SÁT VỀ CÂU HỎI (Khảo sát giúp chúng tôi biết sự trải nghiệm của Bạn, Bạn có thể đóng ý kiến giúp Chúng tôi tăng trải nghiệm của bạn. Đặc biệt chúng tôi chọn ra 1 người may mắn mỗi tuần để trao Mã Kích Hoạt LawPro 30 Miễn Phí)

6. Tham gia group Facebook Sinh Viên Luật để được hỗ trợ giải bài tập và Nhận Mã Kích hoạt tài khoản Pro Miễn Phí

7. Nếu đăng nhập mà không thấy đáp án thì làm như sau: Giữ Phím Ctrl sau đó bấm phím F5 trên bàn phím “Ctrl + F5” để trình duyệt xóa cache lúc chưa đăng nhập và tải lại nội dung.

Đáp Án Trắc Nghiệm Môn IT61 – EHOU

Chỉ Thành Viên MemberPro Mới xem được toàn bộ đáp án.

Click chọn vào hình ảnh để xem chi tiết gói MemberPro. Hoặc lựa chọn tùy chọn và cho vào giỏ hàng để mua ngay. Hoàn tiền 100% nếu không hài lòng.

MemberPro

Môn IT61 EHOU

Khoảng giá: từ 30.000₫ đến 60.000₫

Xem được toàn bộ câu trắc nghiệm của môn này. Có 2 phiên bản là chỉ xem online và có thể tải tài liệu về để in ra

Mua xong xem đáp án Tại đây

+
SKU:
Danh mục:
Thẻ:

ĐÁP ÁN TRẮC NGHIỆM NHẬP MÔN KHAI PHÁ DỮ LIỆU VÀ MÁY HỌC – IT61.001- 04 TÍN CHỈ – SOẠN NGÀY 15.05.2025-  THI TRỰC TUYẾN SINH VIÊN LÀM BÀI TẬP LỚN (NỘP TRÊN HỆ THỐNG),

Ðúng✅=> Ghi chú  là đáp án

Câu 1: Chất lượng dữ liệu được đánh giá dựa trên bao nhiêu yếu tố chính?

a. 5

b. 4

Ðúng✅=> c. 6 

d. 3

Câu 2: Có những thách thức nào với khai phá dữ liệu?

a. Giảm chiều của dữ liệu để tăng tốc độ xử lý

Ðúng✅=> b. Tất cả các đáp án đều đúng 

c. Xử lý nhiễu trong dữ liệu

d. Thay đổi cấu trúc dữ liệu liên tục

Câu 3: Điểm khác biệt chính giữa học sâu (Deep Learning) và học máy truyền thống là gì?

a. Học sâu chỉ sử dụng các thuật toán tuyến tính

b. Học sâu không sử dụng mạng nơ-ron nhân tạo

Ðúng✅=> c. Học sâu tự động học đặc trưng từ dữ liệu 

d. Học sâu không cần dữ liệu để huấn luyện

Câu 4: Điều gì sẽ xảy ra nếu áp dụng PCA lên một tập dữ liệu không có sự tương quan giữa các thuộc tính?

a. PCA sẽ tự động loại bỏ tất cả các thuộc tính

b. PCA vẫn hoạt động bình thường nhưng không làm giảm kích thước dữ liệu

Ðúng✅=> c. PCA sẽ không mang lại hiệu quả vì không có phương sai cần giảm 

d. PCA sẽ làm tăng độ phức tạp của dữ liệu

Câu 5: Dữ liệu có thể bị sai lệch do lỗi nhập liệu, điều này ảnh hưởng đến yếu tố nào?

Ðúng✅=> a. Tính chính xác (Accuracy) 

b. Tính nhất quán (Consistency)

c. Tính đầy đủ (Completeness)

d. Tính khả diễn giải (Interpretability)

Câu 6: Dữ liệu dư thừa trong quá trình tích hợp có thể gây ra điều gì?

a. Không ảnh hưởng đến dữ liệu

b. Giúp mô hình học nhanh hơn

c. Lãng phí tài nguyên lưu trữ và xử lý 

d. Làm tăng tốc độ phân tích dữ liệu

Câu 7: Dữ liệu nhiễu là gì?

a. Dữ liệu bị mất

b. Dữ liệu dư thừa

c. Dữ liệu không phản ánh đúng thực tế 

d. Dữ liệu thiếu đơn vị đo

Câu 8: Học không giám sát khác học có giám sát ở điểm nào?

a. Học có giám sát không dự đoán được kết quả

b. Học không giám sát sử dụng cây quyết định

c. Học không giám sát không cần dữ liệu nhãn 

d. Học không giám sát sử dụng dữ liệu có nhãn

Câu 9: Khai phá dữ liệu (Data Mining) là gì?

a. Phát hiện thông tin hữu ích từ dữ liệu lớn 

b. Sử dụng các công cụ trực quan hóa để trình bày dữ liệu

c. Tạo báo cáo từ dữ liệu đã phân tích

d. Tìm kiếm dữ liệu trên internet

Câu 10: Khi nào dữ liệu được coi là khả diễn giải (Interpretability)?

a. Khi dữ liệu có nhiều giá trị số

b. Khi dữ liệu không có giá trị trống

c. Khi dữ liệu dễ hiểu và có ý nghĩa đối với người dùng 

d. Khi dữ liệu có kích thước nhỏ

Câu 11: Khi nào nên loại bỏ bản ghi có dữ liệu thiếu?

a. Khi dữ liệu có giá trị âm

b. Khi bản ghi chứa quá nhiều giá trị bị thiếu 

c. Khi bản ghi chỉ thiếu một giá trị

d. Không bao giờ nên loại bỏ bản ghi

Câu 12: Khi nào nên sử dụng chọn mẫu ngẫu nhiên phân tầng (Stratified Sampling)?

a. Khi muốn giảm kích thước dữ liệu bằng cách loại bỏ toàn bộ một nhóm dữ liệu

b. Khi muốn đảm bảo tỷ lệ các nhóm dữ liệu trong tập mẫu giống như trong tập dữ liệu gốc 

c. Khi muốn làm sạch dữ liệu trước khi tích hợp

d. Khi muốn tăng tốc độ xử lý bằng cách chọn ngẫu nhiên một phần nhỏ dữ liệu

Câu 13: Khi nào nên sử dụng phân tích biểu đồ (Histogram Analysis) trong rời rạc hóa dữ liệu?

a. Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ

b. Khi muốn nén dữ liệu để giảm dung lượng

c. Khi muốn làm sạch dữ liệu bằng cách loại bỏ giá trị trùng lặp

d. Khi muốn xác định số lượng khoảng tối ưu dựa trên phân bố dữ liệu 

Câu 14: Khi nào nên sử dụng phương pháp giảm số lượng dữ liệu (Numerosity Reduction)?

a. Khi muốn tạo thêm dữ liệu từ dữ liệu gốc

b. Khi muốn tăng độ chính xác của dữ liệu bằng cách làm sạch nó

c. Khi muốn thay thế dữ liệu ban đầu bằng một dạng biểu diễn nhỏ hơn 

d. Khi muốn giữ nguyên dữ liệu nhưng thay đổi cách tổ chức

Câu 15: Khi nào nên sử dụng rời rạc hóa dữ liệu (Discretization)?

a. Khi muốn chuyển đổi dữ liệu liên tục thành các nhóm giá trị rời rạc 

b. Khi muốn giảm kích thước dữ liệu bằng PCA

c. Khi muốn lọc bỏ dữ liệu nhiễu khỏi tập dữ liệu

d. Khi muốn chuẩn hóa dữ liệu về cùng một tỷ lệ

Câu 16: Khi sử dụng Python, thư viện nào thường được dùng để chuẩn hóa dữ liệu?

a. Pandas

b. TensorFlow

c. Matplotlib

d. Scikit-learn 

Câu 17: Khi xây dựng mô hình máy học, bước tiền xử lý dữ liệu đóng vai trò gì?

a. Là bước cuối cùng để kiểm tra mô hình

b. Là bước để xây dựng thuật toán học sâu

c. Là bước phân phối mô hình đã xây dựng

d. Là bước loại bỏ nhiễu và chuẩn hóa dữ liệu 

Câu 18: Khi xử lý dữ liệu thiếu của một cột chứa dữ liệu danh mục (categorical), phương pháp nào hợp lý?

a. Điền bằng giá trị phổ biến nhất 

b. Điền bằng giá trị trung bình

c. Loại bỏ tất cả dữ liệu

d. Điền bằng số 0

Câu 19: Kỹ thuật nào sau đây không thuộc về khai phá dữ liệu?

a. Luật kết hợp

b. Phân cụm

c. Phân lớp

d. Tạo đồ thị 

Câu 20: Làm sạch dữ liệu gồm những bước nào?

a. Biến đổi dữ liệu và Phân tích tương quan

b. Xử lý dữ liệu thiếu

c. Xử lý dữ liệu nhiễu

d. Xử lý dữ liệu thiếu và Xử lý dữ liệu nhiễu 

Câu 21: Làm thế nào để phát hiện dữ liệu trùng lặp trong quá trình tích hợp?

a. Chuyển đổi dữ liệu sang định dạng văn bản để so sánh

b. Sử dụng thuật toán so khớp dữ liệu để xác định bản ghi giống nhau 

c. Tăng kích thước tập dữ liệu để kiểm tra trực quan

d. Xóa toàn bộ dữ liệu có cùng một ID

Câu 22: Mối liên hệ giữa toán học và DMML (Khai phá dữ liệu và Máy học) là gì?

a. Giải tích hỗ trợ xử lý dữ liệu phi tuyến tính

b. Đại số tuyến tính giúp biểu diễn dữ liệu dưới dạng ma trận

c. Tất cả các đáp án đều đúng 

d. Xác suất thống kê giúp phân tích dữ liệu không chắc chắn

Câu 23: Mối liên hệ giữa toán học và DMML (Khai phá dữ liệu và Máy học) là gì?

a. Xác suất thống kê giúp phân tích dữ liệu không chắc chắn

b. Tất cả các đáp án đều đúng 

c. Giải tích hỗ trợ xử lý dữ liệu phi tuyến tính

d. Đại số tuyến tính giúp biểu diễn dữ liệu dưới dạng ma trận

Câu 24: Một cách để giải quyết vấn đề dư thừa thuộc tính là gì?

a. Chỉ sử dụng một nguồn dữ liệu duy nhất

b. Loại bỏ các thuộc tính có thể suy luận từ các thuộc tính khác 

c. Giữ lại tất cả các thuộc tính để có nhiều thông tin hơn

d. Bỏ qua bước tích hợp dữ liệu

Câu 25: Một cách để giải quyết xung đột dữ liệu là gì?

a. Chỉ sử dụng dữ liệu từ nguồn có nhiều giá trị trùng lặp nhất

b. Giữ nguyên tất cả các giá trị để đảm bảo không mất dữ liệu

c. Xóa tất cả các bản ghi bị xung đột

d. Xác định nguồn dữ liệu đáng tin cậy nhất để ưu tiên sử dụng 

Câu 26: Một cách phổ biến để giải quyết vấn đề định danh thực thể là gì?

a. Giữ nguyên tất cả các định dạng từ các nguồn

b. Chỉ sử dụng một nguồn dữ liệu duy nhất

c. Bỏ qua sự khác biệt giữa các nguồn dữ liệu

d. Sử dụng phương pháp chuẩn hóa dữ liệu để tạo định dạng chung 

Câu 27: Một cách phổ biến để giải quyết vấn đề định danh thực thể là gì?

a. Sử dụng phương pháp chuẩn hóa dữ liệu để tạo định dạng chung 

b. Giữ nguyên tất cả các định dạng từ các nguồn

c. Bỏ qua sự khác biệt giữa các nguồn dữ liệu

d. Chỉ sử dụng một nguồn dữ liệu duy nhất

Câu 28: Một phương pháp để xác định dữ liệu ngoại lai (outliers) là gì?

a. Giữ nguyên dữ liệu

b. Loại bỏ dữ liệu có giá trị nhỏ nhất

c. Điền dữ liệu thiếu

d. Sử dụng biểu đồ boxplot 

Câu 29: Một trong những nguyên nhân gây dư thừa thuộc tính trong dữ liệu là gì?

a. Khi dữ liệu bị thiếu thông tin quan trọng

b. Khi dữ liệu không được chuẩn hóa đúng cách

c. Khi dữ liệu chứa nhiều bản ghi lỗi

d. Khi cùng một thông tin được lưu trữ dưới nhiều dạng khác nhau 

Câu 30: Một trong những yếu tố chất lượng dữ liệu là gì?

a. Tính chính xác 

b. Hệ điều hành sử dụng

c. Tốc độ xử lý

d. Dung lượng dữ liệu

Câu 31: Một ví dụ nào sau đây thể hiện dữ liệu có tính khả tín (Believability) cao?

a. Dữ liệu được công bố trong tạp chí khoa học uy tín 

b. Dữ liệu từ mạng xã hội

c. Dữ liệu từ một bài báo không rõ nguồn gốc

d. Dữ liệu từ một trang web cá nhân

Câu 32: Nếu dữ liệu không được cập nhật kịp thời, nó có thể gặp vấn đề gì?

a. Không có vấn đề gì

b. Giảm tính chính xác (Accuracy)

c. Giảm tính đầy đủ (Completeness)

d. Giảm tính thời sự (Timeliness) 

Câu 33: Nếu một bộ dữ liệu có kích thước quá lớn và gây tốn kém tài nguyên xử lý, phương pháp nào phù hợp nhất?

a. Chọn mẫu hoặc giảm số chiều bằng PCA 

b. Giữ nguyên dữ liệu và chỉ thay đổi thuật toán xử lý

c. Tách dữ liệu thành nhiều phần nhỏ và xử lý riêng biệt

d. Tăng thêm dữ liệu để đảm bảo mô hình hoạt động tốt hơn

Câu 34: Nếu một dữ liệu bị nhập sai do lỗi đánh máy, phương pháp nào phù hợp để sửa lỗi?

a. Giữ nguyên dữ liệu

b. Điền dữ liệu thiếu

c. Loại bỏ bản ghi

d. Dùng kỹ thuật khớp chuỗi 

Câu 35: Phương pháp nào giúp điền dữ liệu thiếu bằng giá trị trung bình hoặc trung vị?

a. Sử dụng hằng số chung

b. Không làm gì

c. Sử dụng đại lượng trung tâm 

d. Loại bỏ bản ghi

Câu 36: Phương pháp nào giúp giảm số chiều dữ liệu mà vẫn giữ lại phần lớn thông tin?

a. Nhóm các bản ghi thành từng cụm

b. Phân tích thành phần chính (PCA) 

c. Loại bỏ bản ghi có dữ liệu thiếu

d. Chuẩn hóa dữ liệu

Câu 37: Phương pháp nào giúp phân chia dữ liệu liên tục thành các nhóm có kích thước bằng nhau?

a. Loại bỏ dữ liệu ngoại lai

b. Phân tích tương quan

c. Chuẩn hóa dữ liệu

d. Phân khối dữ liệu (Binning) 

Câu 38: Phương pháp nào giúp phát hiện và loại bỏ dữ liệu nhiễu dựa trên mô hình hồi quy?

a. Điền dữ liệu thiếu

b. Binning

c. Phân cụm

d. Hồi quy 

Câu 39: Tại sao phương pháp PCA lại hữu ích trong giảm kích thước dữ liệu?

a. Vì nó giúp tìm ra các thành phần quan trọng nhất của dữ liệu 

b. Vì nó làm tăng độ phức tạp của mô hình

c. Vì nó loại bỏ hoàn toàn các thuộc tính không liên quan

d. Vì nó thay thế dữ liệu gốc bằng dữ liệu mới hoàn toàn

Câu 40: Tại sao Python là lựa chọn phổ biến trong DMML?

a. Vì chỉ hoạt động trên một hệ điều hành cụ thể

b. Vì có nhiều thư viện hỗ trợ cho khai phá dữ liệu và máy học 

c. Vì cú pháp phức tạp phù hợp với chuyên gia

d. Vì nó là ngôn ngữ lập trình thương mại

Câu 41: Tại sao tiền xử lý dữ liệu quan trọng đối với Machine Learning?

a. Giúp mô hình học chính xác hơn 

b. Làm tăng kích thước dữ liệu

c. Không có tác dụng gì

d. Giúp giảm thời gian xử lý của máy tính

Câu 42: Thuật toán hồi quy trong học máy thường được sử dụng để làm gì?

a. Dự đoán giá trị liên tục 

b. Giảm chiều dữ liệu

c. Nhóm các phần tử giống nhau

d. Phân loại dữ liệu

Câu 43: Tích hợp dữ liệu là gì?

a. Quá trình giảm kích thước tập dữ liệu

b. Quá trình làm sạch dữ liệu trước khi sử dụng

c. Quá trình phân loại dữ liệu theo nhóm

d. Quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau 

Câu 44: Tiền xử lý dữ liệu là gì?

a. Quá trình thu thập dữ liệu

b. Quá trình đánh giá mô hình

c. Quá trình xây dựng mô hình ML

d. Quá trình chuẩn bị dữ liệu trước khi sử dụng 

Câu 45: Tính nhất quán (Consistency) của dữ liệu có nghĩa là gì?

a. Dữ liệu không chứa giá trị trùng lặp

b. Dữ liệu luôn được cập nhật

c. Dữ liệu có tính bảo mật cao

d. Dữ liệu không có mâu thuẫn giữa các nguồn 

Câu 46: Trong chọn mẫu hệ thống (Systematic Sampling), mẫu được chọn như thế nào?

a. Chọn các bản ghi có giá trị trung bình cao nhất

b. Theo một quy tắc nhất định, ví dụ chọn mỗi hàng thứ n trong tập dữ liệu 

c. Chọn hoàn toàn ngẫu nhiên từ tập dữ liệu

d. Chọn mẫu dựa trên phân cụm trước đó

Câu 47: Trong Python, phương pháp nào sau đây giúp chuẩn hóa dữ liệu về khoảng [0,1]?

a. MinMaxScaler() từ Scikit-learn 

b. normalize() từ Pandas

c. StandardScaler() từ Scikit-learn

d. one_hot_encoding() từ NumPy

Câu 48: Trong Python, rời rạc hóa dữ liệu có thể được thực hiện bằng công cụ nào?

a. KBinsDiscretizer() từ Scikit-learn 

b. DecisionTreeClassifier() từ Scikit-learn

c. groupby() từ Pandas

d. LabelEncoder() từ Scikit-learn

Câu 49: Trong tiền xử lý dữ liệu, bước nào giúp chuyển đổi dữ liệu dạng số thành dạng phân loại?

a. Làm sạch dữ liệu

b. Giảm số chiều dữ liệu

c. Chuẩn hóa dữ liệu

d. Rời rạc hóa dữ liệu 

Câu 50: Trong Weka, chức năng nào được sử dụng để thực hiện phân cụm dữ liệu?

a. Associate

b. Classify

c. Cluster 

d. Preprocess

Câu 51: Vì sao cần chuẩn hóa dữ liệu (Normalization)?

a. Giúp dữ liệu có cùng đơn vị đo, tránh ảnh hưởng bởi giá trị quá lớn hoặc quá nhỏ 

b. Giúp dữ liệu có nhiều giá trị phong phú hơn

c. Giúp tăng tốc độ xử lý dữ liệu

d. Giúp tạo ra dữ liệu mới từ dữ liệu gốc

Câu 52: Vì sao cần kết hợp nhiều phương pháp khi làm sạch dữ liệu?

a. Vì mỗi phương pháp có ưu và nhược điểm riêng và không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn 

b. Vì không có phương pháp nào có thể làm sạch dữ liệu hoàn toàn

c. Để tăng độ phức tạp của quá trình tiền xử lý

d. Vì mỗi phương pháp có ưu và nhược điểm riêng

Câu 53: Vì sao không nên sử dụng giá trị mặc định như “Unknown” để thay thế dữ liệu thiếu?

a. Vì nó có thể làm sai lệch phân tích dữ liệu 

b. Vì nó làm tăng kích thước dữ liệu

c. Vì nó làm giảm tính chính xác

d. Vì nó làm mất dữ liệu

Câu 54: Vì sao tính đầy đủ (Completeness) quan trọng trong dữ liệu?

a. Giảm kích thước tập dữ liệu

b. Giúp dữ liệu không bị thiếu thông tin quan trọng 

c. Giúp tăng tốc độ xử lý mô hình

d. Không quan trọng lắm

Câu 55: Việc tạo hệ thống phân cấp khái niệm (Concept Hierarchy) có tác dụng gì?

a. Giúp giảm kích thước tập dữ liệu bằng PCA

b. Giúp phát hiện dữ liệu ngoại lai dễ dàng hơn

c. Giúp mô hình học máy chạy nhanh hơn

d. Giúp tổ chức dữ liệu theo các mức độ trừu tượng khác nhau 

Câu 56: Xung đột dữ liệu trong tích hợp dữ liệu là gì?

a. Khi dữ liệu không có đủ thuộc tính để sử dụng

b. Khi dữ liệu không được cập nhật kịp thời

c. Khi dữ liệu bị trùng lặp trong cùng một bảng

d. Khi cùng một thuộc tính có giá trị khác nhau giữa các nguồn dữ liệu 

Câu 57: Biến đổi dữ liệu là gì?

a. Quá trình thay đổi định dạng hoặc cấu trúc dữ liệu để phân tích tốt hơn

b. Quá trình tăng kích thước dữ liệu để đảm bảo tính đầy đủ

c. Quá trình lọc dữ liệu để loại bỏ nhiễu

d. Quá trình thu thập dữ liệu từ nhiều nguồn

Câu 58: Vấn đề định danh thực thể trong tích hợp dữ liệu là gì?

a. Khi dữ liệu bị mất trong quá trình thu thập

b. Khi một thực thể có nhiều cách biểu diễn khác nhau trong các nguồn dữ liệu Câu trả lời đúng

c. Khi dữ liệu không có nhãn rõ ràng

d. Khi dữ liệu bị trùng lặp trong cùng một nguồn

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Giỏ hàng
Lên đầu trang