Tài liệu nghiên cứu

Ứng dụng máy học dự đoán khả năng tích lũy Arsenic trong gạo dưới tác động của biến đổi khí hậu

Đặt vấn đề

Asen là một thành phần tự nhiên của vỏ trái đất và được phân bố rộng trong môi trường không khí, nước và đất. Việc phơi nhiễm với As sẽ ảnh hưởng xấu tới phổi và tim mạch, đặc biệt As còn là được ghi nhận là tiền thân của ung thư. Một trong những nguồn phơi nhiễm As chính ảnh hưởng trực tiếp đến sức khoẻ con người đến từ As tích luỹ trong gạo, khi gạo là nguồn lương thực chính cho 50% dân số trên thế giới, đặc biệt là ở các nước châu Á như Việt Nam.

Vấn đề Asen trong gạo

Quá trình tích lũy Asen trong gạo là một quá trình phức tạp, trong đó sự tương tác giữa các yếu tố môi trường (thuộc tính đất, khí hậu) và nồng độ Asen trong gạo diễn ra theo một cách phi tuyến tính. Ma trận tương quan trực tiếp cho thấy mối tương quan tuyến tính trực tiếp giữa các yếu tố đầu vào và nồng độ asen trong gạo thường rất thấp. Đáng chú ý là không có một nhân tố đơn lẻ nào có tác động trực tiếp và duy nhất đến sự tích lũy asen trong gạo, ngay cả nồng độ asen trong đất cũng không quyết định hoàn toàn hàm lượng asen trong hạt gạo theo một quy luật tuyến tính đơn giản.

Quá trình tích lũy Asen trong gạo

Quá trình tích lũy Asen trong hạt gạo

Mô hình tương quan

Ma trận tương quan giữa các biến với nồng độ As trong gạo

Ngoài ra trong bối cảnh tình hình biến đổi khí hậu ngày càng phức tạp hiện nay, sự thay đổi về nhiệt độ và lượng mưa không chỉ làm giảm năng suất cây trồng mà thậm chí còn có thể có ảnh hưởng đến nồng độ As trong đất và do đó thay đổi dẫn đến việc gia tăng lượng tích lũy As trong lúa gạo.

Điều kiện khí hậu tương lai làm giảm năng suất lúa gạo

Điều kiện khí hậu tương lai làm giảm năng suất lúa gạo

Điều kiện khí hậu tương lai làm tăng As trong gạo

Điều kiện khí hậu tương lai làm tăng nồng độ As trong gạo

Trong thời đại phát triển công nghệ đang diễn ra mạnh mẽ như hiện nay, việc xây dựng một mô hình AI có khả năng kiểm soát và dự đoán nồng độ As trong gạo dưới các kịch bản biến đổi khí hậu khác nhau là vô cùng cần thiết. Mô hình AI này sẽ cung cấp những thông tin quan trọng cho việc đánh giá rủi ro, xây dựng các biện pháp giảm thiểu và đảm bảo an ninh lương thực, an toàn thực phẩm trong tương lai.

Mục Tiêu Nghiên Cứu

1. Xây Dựng Mô Hình

Xây dựng mô hình học máy dự đoán tổng số năng lực khí hậu dựa trên các yếu tố và các kịch bản khí hậu.

2. Dự Báo Xu Hướng

Tích hợp kịch bản BĐKH để dự báo xu hướng biến đổi khí hậu và đánh giá tác động trong tương lai.

3. Đánh Giá Rủi Ro

Đánh giá rủi ro an toàn và thực tiễn, xác định các biện pháp ứng phó hiệu quả trong các kịch bản biến đổi khí hậu.

Xây dựng mô hình

Thu thập dữ liệu

Nghiên cứu này sử dụng một bộ số liệu bao gồm thông tin về hàm lượng Asen trong đất,lúa, gạo, cùng với các dữ liệu chi tiết về các thuộc tính của đất, lúa, gạo và điều kiện khí hậu tại các vùng trồng lúa khác nhau ở Việt Nam.

Quy mô dữ liệu: 1.174 mẫu đất, lúa, gạo từ các vùng trồng lúa Việt Nam (2017-2024)

Phạm vi dữ liệu: Phân bố rộng khắp miền Bắc, Trung, Nam và trong cả hai mùa vụ chính

Nội dung dữ liệu:

  • Nồng độ As trong đất và lúa, gạo
  • Đặc tính hóa lý của gạo
  • Đặc tính hóa lý của thân cây lúa
  • Đặc tính hóa lý của đất
  • Yếu tố khí hậu
Bản đồ phân bố mẫu

Bản đồ phân bố các điểm lấy mẫu trên khắp Việt Nam

Xác định tham số

Đặc tính hóa học đất

As, Al, P, S, Mn, Fe

Đặc tính vật lý đất

pH, SOM, Clay

Yếu tố khí hậu

Rainfall, Temperature

Mô Hình Học Máy

Nồng độ As trong hạt gạo

Grain As

Tiền xử lý dữ liệu

Để chuẩn bị dữ liệu cho mô hình dự đoán nồng độ Asen trong gạo phải trải qua một quá trình tiền xử lý:

  • Loại bỏ mẫu không có thông tin về nồng độ Asen trong gạo
  • Loại bỏ outlier bằng phương pháp khoảng tứ phân vị (IQR)
  • Điền giá trị còn thiếu bằng phương pháp MICE kết hợp Random Forest

Dữ liệu trước xử lý

Dữ liệu sau xử lý

Xây dựng mô hình cơ sở

Nghiên cứu này ưu tiên sử dụng các mô hình học máy dựa trên cây quyết định (Decision Tree Regression) thay vì các phương pháp hồi quy tuyến tính truyền thống do nhiều ưu điểm vượt trội

  • Khả năng mô hình hóa các mối quan hệ phi tuyến phức tạp
  • Xử lý hiệu quả các tương tác đa chiều giữa các biến môi trường
  • Tự động xác định các đặc trưng quan trọng mà không cần tiền xử lý phức tạp

Ảnh minh họa cây quyết định

Nghiên cứu này sử dụng hai thuật toán phổ biến bao gồm:

RandomForest

Thuật toán xây dựng đồng thời nhiều cây quyết định độc lập trên các tập con bootstrap của dữ liệu. Mỗi cây sử dụng một tập con ngẫu nhiên của các đặc trưng tại mỗi nút phân chia, giúp tăng tính đa dạng của mô hình. Kết quả dự đoán cuối cùng là giá trị trung bình từ tất cả các cây con.

Ảnh minh họa mô hình Random Forest

XGBoost

Thuật toán ensemble dựa trên kỹ thuật boosting tuần tự, trong đó mỗi cây mới được xây dựng để khắc phục sai số của các cây trước đó. XGBoost tích hợp cơ chế chính quy hóa tiên tiến để ngăn chặn hiện tượng overfitting và sử dụng hệ thống tối ưu hóa có hiệu suất cao.

Ảnh minh họa mô hình XGBoost

Thang đo hiệu suất mô hình

R²: Đo tỷ lệ phần trăm biến thiên của biến mục tiêu được giải thích bởi mô hình. Giá trị từ 0 đến 1, càng gần 1 càng tốt.

Công thức tính R²

RMSE : Đo lường độ lớn trung bình của sai số dự đoán, đơn vị tương đồng với biến mục tiêu. Giá trị RMSE càng thấp càng tốt.

Công thức tính RMSE

So sánh hiệu suất các mô hình với các phương pháp truyền thống

Mô hình Train RMSE Test RMSE Train R² Test R²
XGBoost 0.028790 0.072668 0.923347 0.495532
RandomForest 0.049582 0.073197 0.772653 0.518263
LinearRegression 0.097342 0.101061 0.123733 0.088693
RidgeRegression 0.097342 0.101062 0.123732 0.088676

Kết quả cho thấy sự vượt trội rõ rệt của các mô hình dựa trên cây quyết định so với các phương pháp hồi quy tuyến tính. Cụ thể:

XGBoost và RandomForest đạt giá trị RMSE thấp hơn đáng kể và R² cao hơn nhiều lần so với Linear Regression và Ridge Regression cả trên tập huấn luyện và tập kiểm thử.

RandomForest thể hiện hiệu suất tốt nhất với Test R² ≈ 0.52, cho thấy mô hình có thể giải thích được gần 52% biến thiên nồng độ asen trong gạo dựa trên các yếu tố đầu vào.

Nâng cao hiệu suất dự đoán với Ensemble Learning

Sau khi xây dựng các mô hình cơ sở, nghiên cứu tiến hành áp dụng phương pháp Ensemble Learning để nâng hiệu suất dự đoán của mô hình tốt. Các phương pháp sử dụng bao gồm:

  • Voting Ensemble: Kết hợp dự đoán bằng cách lấy giá trị trung bình từ các mô hình cơ sở
  • Stacking Ensemble: Sử dụng dự đoán từ các mô hình cơ sở làm đầu vào cho một mô hình cấp cao hơn
  • Weighted Ensemble: Kết hợp các dự đoán với trọng số tối ưu được xác định thông qua Ridge Regression

So sánh hiệu suất các mô hình với các phương pháp truyền thống

Mô hình Train RMSE Test RMSE Train R² Test R²
XGBoost 0.028790 0.072668 0.923347 0.495532
RandomForest 0.049582 0.073197 0.772653 0.518263
Voting Ensemble 0.055581 0.080807 0.714314 0.417365
Stacking Ensemble 0.039972 0.075881 0.852241 0.486245
Weighted Ensemble 0.037426 0.06831 0.870463 0.538847

Kết quả đánh giá cho thấy Weighted Ensemble nổi bật với chỉ số Test RMSE thấp nhất (0.06831) và Test R² cao nhất (0.538847), vượt trội hơn so với cả mô hình đơn lẻ và các phương pháp ensemble khác

Cuối cùng Weighted Ensemble được lựa chọn làm mô hình vì không chỉ đạt hiệu suất cao nhất mà còn dễ dàng triển khai trong thực tế

Kịch bản Biến đổi Khí hậu

Kịch bản Biến Đổi Khí Hậu

Kịch bản biến đổi khí hậu RCP

Kịch bản RCP được xây dựng để mô tả các khả năng biến đổi khí hậu trong tương lai, tương ứng với các mức phát thải khí nhà kính khác nhau

  • Kịch bản RCP 8.5 (Phát thải cao): Tượng trưng cho tình huống không có các chính sách khí hậu hiệu quả, dân số tăng nhanh, sự phụ thuộc vào nhiên liệu hóa thạch tiếp tục và tốc độ đổi mới công nghệ giảm phát thải chậm.
  • Kịch bản RCP 4.5 (Phát thải trung bình): Đại diện cho một kịch bản mà các chính sách và hành động khí hậu tương đối mạnh mẽ được thực hiện trên toàn cầu.
Kịch bản biến đổi khí hậu

So sánh các kịch bản biến đổi khí hậu RCP

Nghiên cứu sử dụng kịch bản biến đổi khí hậu của Bộ Tài nguyên và Môi trường Việt Nam năm 2020 cho hai đại lượng là sự thay đổi nhiệt độ và lượng mưa, tập trung vào hai kịch bản phát thải RCP4.5 (phát thải trung bình) và RCP8.5 (phát thải cao) và 2 mốc thời gian giữa thế kỷ và cuối thế kỷ.

Các bước ứng dụng kịch bản với mô hình:

  1. Chọn địa điểm cụ thể (tỉnh hoặc thành phố)
  2. Chọn kịch bản biến đổi khí hậu phù hợp
  3. Xử lý dữ liệu biến đổi
  4. Nhập dữ liệu vào mô hình
  5. Chạy mô hình dự đoán
Kết quả dự đoán

Các bước tích hợp kịch bản BĐKH vào mô hình dự đoán

Kết quả và thảo luận

Nhận xét về ảnh hưởng của biến đổi khí hậu tới nồng độ asen trong gạo:

  • Cả hai kịch bản đều cho thấy xu hướng tăng nồng độ arsenic theo thời gian từ năm 2025 đến 2100.
  • Trong giai đoạn đầu, hai kịch bản có sự tương đồng về mức độ tăng nồng độ arsenic.
  • Có sự phân kỳ rõ rệt giữa hai kịch bản trong giai đoạn cuối thế kỷ.
  • Kịch bản với mức phát thải cao hơn (RCP 8.5) dẫn đến sự gia tăng mạnh mẽ hơn về nồng độ arsenic.

Biểu đồ nồng độ As thay đổi dưới tác động của BĐKH của mẫu 17QH1#1

Tiềm năng Triển khai và Phát triển

Tiềm năng Triển khai trong Thực tế

Mô hình dự đoán nồng độ As trong gạo dưới tác động của BĐKH có tiềm năng lớn để triển khai trong thực tế như:

  • Dễ dàng tiếp cận với nhiều đối tượng người dùng
  • Tích hợp khả năng lấy dữ liệu khí hậu theo mùa vụ, tỉnh thành phù hợp với nơi nghiên cứu
  • Cung cấp thông tin cảnh báo sớm
  • Hỗ trợ quản lý và hoạch định chính sách nông nghiệp

Tiềm năng Phát triển trong Tương lai

Để tối ưu hóa hiệu quả và mở rộng phạm vi ứng dụng, mô hình dự đoán nồng độ Asen trong gạo có thể được phát triển theo các hướng sau:

  • Bổ sung thêm nhiều trường dữ liệu như: các yếu tố ảnh hưởng,giống lúa, kỹ thuật canh tác để có thêm nhiều góc nhìn về các tương tác ảnh hưởng tới nồng độ As trong gạo
  • Tích cực xây dựng các bộ dữ liệu hoàn chỉnh theo thời gian và không gian để có thêm cơ sở mở rộng nghiên cứu trong tương lai
  • Phát triển giao diện người dùng thân thiện và trực quan
  • Ứng dụng AI nghiên cứu chuyên sâu về các tương tác phi tuyến ảnh hưởng đến nồng độ As trong gạo
  • Sử dụng các công nghệ mới hơn để mô hình dự đoán có độ chuẩn xác cao hơn như là ANN, MLP

Kết luận và kiến nghị

Kết luận

  • Nghiên cứu đã phát triển mô hình Weighted Ensemble kết hợp Random Forest và XGBoost có khả năng dự đoán nồng độ As trong gạo với Test R² đạt gần 0.54, vượt trội hơn hẳn so với các phương pháp hồi quy tuyến tính truyền thống.
  • Nghiên cứu cho thấy biến đổi khí hậu sẽ làm gia tăng nồng độ As trong gạo trong tương lai, đặc biệt là theo kịch bản phát thải cao (RCP8.5) với sự phân kỳ rõ nét giữa các kịch bản sau năm 2050.
  • Nghiên cứu cung cấp công cụ hữu ích để đánh giá rủi ro ô nhiễm As trong gạo dưới tác động của biến đổi khí hậu, hỗ trợ việc hoạch định chính sách và xây dựng các biện pháp thích ứng.

Kiến nghị

  • Phát triển các giống lúa có khả năng kháng As
  • Xây dựng thêm nhiều mô hình dự đoán các kim loại nặng khác
  • Tích hợp mô hình với các công nghệ như hệ thống thông tin địa lý (GIS) để hiển thị bản đồ nguy cơ ô nhiễm, công nghệ viễn thám để theo dõi các yếu tố môi trường

Tài liệu tham khảo

  1. Bộ Tài nguyên và Môi trường (2020). Kịch bản biến đổi khí hậu. NXB Tài Nguyên Môi trường bản đồ Việt Nam. https://imh.ac.vn/files/doc/2020/KB%20BDKH%202912.pdf
  2. E. Marie Muehe, Tianmei Wang, Carolin F. Kerl, Britta Planer-Friedrich & Scott Fendorf (2019). Rice production threatened by coupled stresses of climate and soil arsenic. Nature Communications. https://www.nature.com/articles/s41467-019-12946-4
  3. Met Office (2018). UKCP18 Guidance: Representative Concentration Pathways. https://www.metoffice.gov.uk/binaries/content/assets/metofficegovuk/pdf/research/ukcp/ukcp18-guidance---representative-concentration-pathways.pdf