Những bức ảnh được tạo ra nhờ ánh sáng, nhưng nếu chân dung của mọi người có thể được tạo ra bằng âm thanh giọng nói của họ thì sao? Một AI đang được nghiên cứu để tái tạo lại khuôn mặt một người chỉ bằng đoạn ghi âm giọng nói ngắn của người đó, kết quả thu được rất ấn tượng và có hơi đáng sợ.
Các nhà khoa học trí tuệ nhân tạo tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL) lần đầu tiên công bố về thuật toán AI có tên là Speech2Face trong một bài báo vào năm 2019 và tiếp tục hoàn thiện cho đến nay.
Đầu tiên, các nhà nghiên cứu đã thiết kế và đào tạo một mạng neuron sâu (Deep neural Network) bằng cách sử dụng hàng triệu video cảnh mọi người nói chuyện từ YouTube và Internet. Trong quá trình đào tạo này, AI đã học được mối tương quan giữa âm thanh của giọng nói và diện mạo của người nói. Những mối tương quan này cho phép nó đưa ra phỏng đoán tốt nhất về độ tuổi, giới tính và sắc tộc của người nói.
Con người không trực tiếp tham gia vào quá trình đào tạo, vì các nhà nghiên cứu không cần phải phân loại thủ công bất kỳ dữ liệu nào - AI chỉ đơn giản là được cung cấp một lượng lớn video và có nhiệm vụ tìm ra mối tương quan giữa các đặc điểm giọng nói và đặc điểm khuôn mặt.
Sau khi được đào tạo, AI dường như rất giỏi trong việc tạo ra các bức ảnh chân dung giống người thật khi chỉ dựa trên bản ghi âm giọng nói. AI này hoạt động tốt hơn khi các đoạn ghi âm dài hơn.
Để phân tích thêm độ chính xác của việc tái tạo khuôn mặt, các nhà nghiên cứu đã xây dựng một "bộ giải mã khuôn mặt" để tạo ra bản tham chiếu từ khuôn mặt gốc, bỏ qua những thứ không liên quan như tư thế và ánh sáng. Điều này cho phép các nhà khoa học dễ dàng so sánh hình ảnh tạo từ giọng nói với ảnh khuôn mặt của người nói.
Một lần nữa, kết quả của AI rất gần với khuôn mặt thật trong phần lớn các trường hợp.
Có một số trường hợp AI gặp khó khăn trong việc hình dung người nói trông như thế nào. Các yếu tố như trọng âm, ngôn ngữ và cao độ giọng nói là những yếu tố gây ra sự không khớp giữa giọng nói và khuôn mặt, trong đó giới tính, tuổi tác hoặc dân tộc không chính xác.
Những người có giọng cao (bao gồm cả các bé trai) thường được coi là nữ trong khi những người có giọng thấp được coi là nam. Một người đàn ông châu Á nói tiếng Anh dẫn đến ngoại hình không giống người châu Á hơn so với khi anh ta nói tiếng Trung Quốc.
Các nhà nghiên cứu cho biết họ đã có những cân nhắc về quyền riêng tư và đạo đức xung quanh dự án này. Tất cả các kế hoạch sử dụng thực tế (nếu có) cần phải được kiểm tra cẩn thận.
Cơ quan thực thi pháp luật có thể sử dụng AI để tạo chân dung kẻ tình nghi nếu bằng chứng duy nhất là một đoạn ghi âm giọng nói. Tuy nhiên, điều này có thể gây ra rất nhiều tranh cãi liên quan đến quyền riêng tư và đạo đức.
Mặt khác, nó có thể có tác động tiêu cực đến các nhà sáng tạo nội dung trên YouTube và TikTok, những người đang cố gắng bảo vệ cuộc sống riêng tư của họ khi chỉ lồng tiếng và không xuất hiện trước ống kính.
Dù một AI có thể tạo ra những chân dung chính xác của mọi người chỉ từ giọng nói của họ là khái niệm hấp dẫn và thứ tưởng như chỉ có trong khoa học viễn tưởng, nhưng đó không phải mục tiêu của các nhà nghiên cứu. Họ cho biết nghiên cứu nhằm cung cấp một cái nhìn toàn diện hơn về mối tương quan giữa khuôn mặt với giọng nói và có thể mở ra các cơ hội nghiên cứu và ứng dụng mới.
(Theo Pháp luật và Bạn đọc, Petapixel)
Đây là thời đại một bã kẹo cao su cũng có thể tiết lộ khuôn mặt bạn
Từ một sợi tóc cho đến vảy da chết, nước bọt dính trên miệng cốc cà phê, bã kẹo cao su hay đầu lọc thuốc lá. Bạn nghĩ những dấu vết này có thể tiết lộ thông tin gì của mình?