Ai phát hiện deepfake tốt hơn: Con người hay máy móc?
Bài học chính
Sự phổ biến của công nghệ deepfake đặt ra vô số thách thức đối với xã hội đương đại, bao gồm khả năng làm trầm trọng thêm việc phổ biến thông tin sai lệch, làm suy yếu uy tín của các cá nhân thông qua các tuyên bố gian lận và thậm chí kích động xung đột làm tổn hại đến an ninh quốc gia.
Mặc dù đã có sẵn các công nghệ AI tiên tiến được thiết kế để phát hiện các hành vi giả mạo sâu, nhưng điều cần thiết là phải nhận ra rằng những phương pháp này không phải là không thể sai lầm. Do đó, khả năng phán đoán của con người tiếp tục đóng một vai trò quan trọng trong việc xác định các trường hợp tiềm ẩn của deepfakery.
Bằng cách tích hợp các khả năng độc đáo của cả nhà phân tích con người và hệ thống trí tuệ nhân tạo, có thể nâng cao hiệu quả trong việc phát hiện và chống lại các mối đe dọa do công nghệ deepfake gây ra. Mặc dù mỗi phương pháp đều có những ưu điểm và hạn chế riêng, nhưng sự kết hợp của hai phương pháp này mang lại một cách tiếp cận toàn diện hơn để giải quyết thách thức mới nổi này.
Sự xuất hiện của công nghệ deepfake đặt ra mối đe dọa lan rộng đối với nhiều khía cạnh khác nhau của xã hội đương đại. Khả năng phân biệt tính xác thực trong các phương tiện truyền thông kỹ thuật số ngày càng trở nên quan trọng trong việc chống lại thông tin sai lệch, tuy nhiên khi trí tuệ nhân tạo tiếp tục phát triển với tốc độ ngày càng nhanh, người ta phải suy ngẫm xem liệu việc dựa vào trực giác của con người hay năng lực công nghệ có phù hợp hơn để xác định những thao tác lừa đảo như vậy hay không.
Sự nguy hiểm của Deepfake
Khi trí tuệ nhân tạo tiếp tục phát triển và tiến hóa thì tiềm năng công nghệ deepfake tàn phá xã hội cũng tăng theo. Sự phổ biến của deepfake đặt ra nhiều thách thức mà chúng ta phải giải quyết để bảo vệ khỏi tác hại của chúng. Một số mối lo ngại này bao gồm sự lan truyền của thông tin sai lệch, sự xói mòn lòng tin vào các tổ chức cũng như việc duy trì lời nói căm thù và sự phân biệt đối xử. Điều bắt buộc là chúng ta phải luôn cảnh giác trong nỗ lực chống lại mối đe dọa mới nổi này và hợp tác để giảm thiểu tác động của nó.
Công nghệ deepfake có khả năng truyền bá thông tin sai lệch thông qua nội dung video và âm thanh bị thao túng, bao gồm cả các báo cáo tin tức sai sự thật có thể dẫn đến hiểu lầm hoặc thậm chí gây bất ổn trong công chúng.
Thông qua hành vi mạo danh người thật, DeepFakes có khả năng gây tổn hại đến danh tiếng và đánh lừa những người quen thuộc với chúng.
Những lo ngại về An ninh Quốc gia xung quanh công nghệ Deepfake chủ yếu xoay quanh tiềm năng sản xuất nội dung hình ảnh và thính giác mô tả các nhà lãnh đạo thế giới kích động thù địch, có thể dẫn đến hậu quả thảm khốc trên quy mô quốc tế.
Việc sử dụng hình ảnh và âm thanh gây hiểu lầm có thể gây bất hòa và biến động trong các phe phái cụ thể, lợi dụng cảm xúc cho mục đích lôi kéo.
An ninh mạng ngày càng trở thành mối lo ngại khi tội phạm mạng sử dụng công nghệ nhân bản giọng nói được hỗ trợ bởi trí tuệ nhân tạo để mạo danh các nguồn đáng tin cậy và đánh lừa những nạn nhân không nghi ngờ thông qua liên lạc được cá nhân hóa, từ đó tăng khả năng tấn công thành công vào từng mục tiêu.
Ứng dụng bất chính của công nghệ deepfake liên quan đến việc chiếm đoạt trái phép hình ảnh hoặc chân dung của một cá nhân, có thể được phổ biến rộng rãi mà không cần sự đồng ý rõ ràng của họ.
Việc thiết lập lòng tin và sự tự tin được xác định dựa trên khả năng phân biệt giữa sự thật và sự giả dối. Trong trường hợp không thể phân biệt được, tất cả thông tin dường như không đáng tin cậy.
Những tiến bộ trong công nghệ deepfake đang dần cải thiện tính chân thực của chúng, khiến việc phát triển các phương pháp đáng tin cậy để xác định những nội dung truyền thông bị thao túng này ngày càng trở nên quan trọng. Trí tuệ nhân tạo (AI) mang đến giải pháp tiềm năng thông qua việc triển khai các mô hình phát hiện deepfake chuyên dụng. Mặc dù các công cụ này tỏ ra hứa hẹn trong việc gắn cờ các video hoặc hình ảnh lừa đảo nhưng chúng không phải là không thể sai lầm, tương tự như các thuật toán khác tìm cách xác định chính xác văn bản do AI tạo ra.
Hiện tại, khả năng phán đoán và phân biệt của con người vẫn là nguồn lực quan trọng trong việc phân biệt giữa nội dung xác thực và phương tiện truyền thông bị thao túng. Tuy nhiên, câu hỏi đặt ra là liệu con người có sở hữu khả năng phát hiện hình ảnh và video deepfake ngang bằng với các thuật toán tiên tiến đã được phát triển cho mục đích này hay không.
Thuật toán có thể phát hiện deepfake tốt hơn con người không?
Deepfakes là một mối đe dọa đủ nghiêm trọng mà các gã khổng lồ công nghệ và các nhóm nghiên cứu đang dành nguồn lực khổng lồ cho nghiên cứu và phát triển. Vào năm 2019, những công ty như Meta, Microsoft và Amazon đã trao giải thưởng trị giá 1.000.000 đô la trong Thử thách phát hiện Deepfake để có mô hình phát hiện chính xác nhất.
Mô hình có hiệu suất cao nhất đã chứng minh tỷ lệ chính xác là 82,56% trên tập dữ liệu bao gồm các video có thể truy cập công khai. Tuy nhiên, khi trải qua thử nghiệm liên quan đến tập hợp 10.000 video chưa được quan sát trước đó, được gọi là “bộ dữ liệu hộp đen”, hiệu suất của mô hình tương tự đã giảm đáng kể, chỉ đạt được độ chính xác 65,18%.
Nghiên cứu của chúng tôi bao gồm một loạt các cuộc điều tra kiểm tra tính hiệu quả của hệ thống phát hiện deepfake dựa trên trí tuệ nhân tạo so với hiệu suất của con người. Mặc dù các phát hiện này khác nhau giữa các nghiên cứu khác nhau, nhưng điều đáng chú ý là nhìn chung, con người có thành tích ngang bằng hoặc vượt trội trong việc xác định các tác phẩm sâu khi so sánh với các công nghệ này.
Một nghiên cứu năm 2021 được công bố trên PNAS cho thấy “những người quan sát bình thường là con người” đã đạt được tỷ lệ chính xác cao hơn một chút so với các công cụ phát hiện deepfake hàng đầu. Tuy nhiên, nghiên cứu cũng phát hiện ra rằng những người tham gia là con người và các mô hình AI dễ mắc phải các loại lỗi khác nhau.
Điều thú vị là nghiên cứu được thực hiện bởi Đại học Sydney đã nhận thấy rằng bộ não con người, một cách vô thức, hiệu quả hơn trong việc phát hiện các hành vi giả mạo sâu hơn những nỗ lực có ý thức của chúng ta.
Phát hiện manh mối trực quan trong Deepfake
Sự phức tạp của việc phát hiện deepfake đòi hỏi mức độ kiểm tra khác nhau dựa trên loại nội dung liên quan. Một ví dụ đáng chú ý vào năm 2020 là một bản deepfake mô tả nhà lãnh đạo Triều Tiên Kim Jong-un như một nhân vật đang phát biểu; trong những trường hợp như vậy, việc xem xét kỹ lưỡng các yếu tố hình ảnh như hình dạng miệng (visemes) và âm thanh lời nói (âm vị) có thể có lợi nếu xem xét kỹ lưỡng các yếu tố thị giác có thể cho thấy sự giả mạo.
Các chuyên gia con người, người xem thông thường và thuật toán đều có thể thực hiện loại phân tích này, ngay cả khi kết quả có thể khác nhau. MIT xác định tám câu hỏi để giúp xác định video deepfake:
Để tạo ra các tác phẩm deepfake chất lượng cao, điều quan trọng là phải tập trung vào các đặc điểm trên khuôn mặt của một cá nhân vì họ thường trải qua những biến đổi đáng kể trong quá trình này.
Khi đánh giá các đặc điểm trên khuôn mặt, điều quan trọng là phải xem xét kết cấu và độ sâu của da trên má và trán. Vẻ ngoài của làn da phải phù hợp với những thay đổi liên quan đến tuổi tác so với các đặc điểm khác như tóc và màu mắt. Mặc dù công nghệ deepfake đã tiến bộ đáng kể nhưng vẫn có thể có những điểm mâu thuẫn dễ nhận thấy khi so sánh các khía cạnh nhất định của khuôn mặt.
Hãy chú ý đến đôi mắt và lông mày khi phân tích hình ảnh. Có bất kỳ bóng tối bất ngờ nào hiện diện có khả năng cho thấy việc sử dụng công nghệ deepfake không? Mặc dù các thuật toán deepfake được thiết kế để tái tạo vật lý trong thế giới thực một cách chính xác nhất có thể, nhưng không phải lúc nào chúng cũng có thể nắm bắt được mọi sắc thái của một tình huống nhất định. Do đó, điều quan trọng là phải kiểm tra cẩn thận các yếu tố hình ảnh của hình ảnh để xác định bất kỳ sự mâu thuẫn hoặc bất thường tiềm ẩn nào có thể gợi ý sự hiện diện của thao tác deepfake.
Hãy để ý đến chiếc kính bạn đang đeo. Chúng có gây ra bất kỳ sự khó chịu hoặc biến dạng nào không? Chúng có vẻ quá bóng hoặc xỉn màu? Ngoài ra, điều quan trọng là phải xem xét vị trí và chuyển động của đầu bạn ảnh hưởng như thế nào đến cường độ và hướng của bất kỳ phản xạ nào hiện diện trên thấu kính. Mặc dù công nghệ deepfake đã đạt được những tiến bộ đáng kể trong việc mô phỏng môi trường thế giới thực, bao gồm cả động lực của ánh sáng, nhưng vẫn có khả năng một số sắc thái nhất định có thể không được nắm bắt chính xác, đặc biệt là liên quan đến vật lý tự nhiên của tương tác ánh sáng.
Điều quan trọng cần lưu ý là công nghệ có tên DeepFakes có khả năng thêm hoặc loại bỏ lông trên khuôn mặt như ria mép, tóc mai hoặc râu với độ chính xác cao. Mặc dù nó có thể tạo ra kết quả thuyết phục về mặt này, nhưng tính tự nhiên của các biến đổi râu trên khuôn mặt đạt được thông qua DeepFakes có thể không phải lúc nào cũng thành công hoàn toàn.
Vui lòng lưu ý bất kỳ sự bất thường hoặc không đối xứng nào trên nốt ruồi trên khuôn mặt của bạn vì chúng có thể là dấu hiệu của những nguy cơ sức khỏe tiềm ẩn. Điều quan trọng là phải kiểm tra cẩn thận nốt ruồi của bạn và xác định xem chúng có trông tự nhiên hay không. Nếu nốt ruồi có vẻ không tự nhiên hoặc đã trải qua những thay đổi, nó cần được bác sĩ da liễu đánh giá kịp thời. Tự kiểm tra thường xuyên có thể giúp phát hiện sớm ung thư da và các tình trạng khác liên quan đến nốt ruồi bất thường.
Vui lòng lưu ý bất kỳ trường hợp chớp mắt quá mức hoặc không đủ của cá nhân được đề cập, vì đây có thể là dấu hiệu của một số trạng thái hoặc tình trạng tâm lý nhất định.
Vui lòng chú ý kỹ đến chuyển động của môi tôi khi tôi nói, vì một số video deepfake dựa vào tính năng hát nhép để có độ chân thực. Khi đánh giá một video, hãy lưu ý xem chuyển động của môi có tự nhiên và phù hợp với nội dung đang được nói hay không.
Các hệ thống trí tuệ nhân tạo tiên tiến được thiết kế để phát hiện các lỗ hổng sâu có khả năng kiểm tra một loạt các chỉ số tương tự, mặc dù có mức độ hiệu quả khác nhau. Những nỗ lực không ngừng của các chuyên gia dữ liệu liên quan đến việc đưa ra các kỹ thuật đổi mới, bao gồm cả việc xác định các kiểu lưu lượng máu bình thường trên khuôn mặt của những cá nhân phát biểu trên màn hình. Có thể việc thực hiện các chiến lược mới hoặc cải tiến các phương pháp hiện tại có thể giúp AI vượt qua hiệu suất của con người trong lĩnh vực này trong một tương lai không xa.
Phát hiện manh mối âm thanh trong Deepfakes
Việc xác định âm thanh deepfake gặp phải một trở ngại đặc biệt do thiếu các chỉ báo hình ảnh có trong video và thiếu cơ hội để phát hiện sự khác biệt giữa âm thanh và hình ảnh. Quá trình xác định deepfake chủ yếu phụ thuộc vào kiểm tra thính giác, với sự hỗ trợ bổ sung từ xác thực siêu dữ liệu trong một số trường hợp nhất định.
Một nghiên cứu được công bố bởi University College London vào năm 2023 cho thấy con người có thể phát hiện bài phát biểu deepfake 73% thời gian (tiếng Anh và tiếng Quan Thoại). Giống như các video deepfake, người nghe con người thường phát hiện bằng trực giác các kiểu giọng nói không tự nhiên trong giọng nói do AI tạo ra, ngay cả khi họ không thể chỉ định điều gì có vẻ không ổn.
Các dấu hiệu phổ biến bao gồm:
⭐Nói lắp
⭐Thiếu biểu cảm
⭐Tiếng ồn nền hoặc nhiễu
⭐Giọng hát hoặc lời nói không nhất quán
⭐Giọng hát thiếu “đầy đặn”
⭐Giao hàng quá kịch bản
Việc không có các khiếm khuyết hoặc bất thường như bắt đầu sai, sửa đổi và làm sạch dây thanh âm được gọi là thiếu sự không hoàn hảo.
Một lần nữa, các thuật toán cũng có thể phân tích giọng nói cho các tín hiệu deepfake tương tự, nhưng các phương pháp mới đang giúp các công cụ trở nên hiệu quả hơn. Nghiên cứu của USENIX đã xác định các mẫu trong quá trình tái tạo giọng nói AI không thể mô phỏng giọng nói tự nhiên. Nó tóm tắt rằng bộ tạo giọng nói AI tạo ra âm thanh phù hợp với các dải giọng hẹp (có kích thước gần bằng ống hút uống nước) mà không có chuyển động tự nhiên của giọng nói con người.
Nghiên cứu trước đây của Viện Horst Görtz đã phân tích âm thanh thật và âm thanh giả sâu bằng tiếng Anh và tiếng Nhật, cho thấy sự tinh tế sự khác biệt về tần số cao hơn của lời nói chân thật và các bài viết sâu.
Cả tín hiệu thính giác và các sắc thái chi tiết trong mẫu giọng nói đều có thể được phân biệt bởi cả người quan sát con người và hệ thống trí tuệ nhân tạo tiên tiến. Đối với các biến thể tinh tế ở tần số cao hơn, có thể hình dung rằng các mô hình phát hiện AI có thể đạt được mức độ chính xác tương xứng, mặc dù cũng có thể dự đoán được sự cải thiện tương đương đối với các hành vi lừa dối hoặc thao túng do AI tạo ra.
Con người và thuật toán đều bị Deepfakes đánh lừa, nhưng theo những cách khác nhau
Nghiên cứu chỉ ra rằng cả nhận thức của con người và công nghệ phát hiện trí tuệ nhân tạo tiên tiến đều thể hiện trình độ tương đương trong việc phân biệt phương tiện deepfake. Hiệu quả của các hệ thống này có thể dao động từ khoảng 50% đến hơn 90%, với kết quả hoạt động phụ thuộc vào các tiêu chí cụ thể được sử dụng trong quá trình thử nghiệm.
Thông qua một góc nhìn rộng hơn, rõ ràng là cả con người và hệ thống trí tuệ nhân tạo đều dễ bị tổn thương như nhau trước sự lừa dối do deepfake gây ra. Tuy nhiên, có một sự khác biệt cơ bản trong cách chúng ta trở thành nạn nhân của những thao túng như vậy. Sự khác biệt này có thể là lợi thế mạnh mẽ nhất của chúng ta trong việc đối mặt với những nguy cơ do công nghệ deepfake gây ra. Sự hội tụ năng lực của con người với khả năng của các máy dò tiên tiến dành cho deepfake hứa hẹn sẽ bù đắp cho những thiếu sót cố hữu của một trong hai bên, từ đó nâng cao kết quả chung.
Ví dụ: nghiên cứu của MIT cho thấy con người xác định các tác phẩm giả mạo sâu của các nhà lãnh đạo thế giới và những người nổi tiếng tốt hơn so với các mô hình AI. Nó cũng tiết lộ rằng các mô hình AI đã gặp khó khăn với các cảnh quay có nhiều người, mặc dù nó cho thấy điều này có thể là do các thuật toán được đào tạo về các cảnh quay có một người nói.
Ngược lại, nghiên cứu nói trên đã phát hiện ra những trường hợp trí tuệ nhân tạo vượt qua hiệu suất của con người khi phân tích các video clip có chất lượng không đạt tiêu chuẩn, chẳng hạn như độ mờ, nhiễu hạt và bóng tối, có thể được sử dụng có chủ ý để đánh lừa người quan sát. Ngoài ra, các kỹ thuật phát hiện AI hiện đại như kiểm tra lưu lượng máu ở các vùng cụ thể trên khuôn mặt đòi hỏi phải đánh giá vượt quá khả năng của con người.
Những tiến bộ về phương pháp giúp hệ thống trí tuệ nhân tạo xác định những tín hiệu tinh tế mà con người không thể nhận biết chắc chắn sẽ nâng cao khả năng phân biệt các dấu hiệu đó theo thời gian. Tuy nhiên, đồng thời, những tiến bộ này cũng có thể dẫn đến sự gia tăng mức độ tinh vi của các kỹ thuật lừa đảo được AI sử dụng. Do đó, một yếu tố quan trọng cần cân nhắc liên quan đến sự phát triển trong tương lai của lĩnh vực này nằm ở việc xác định liệu những đổi mới công nghệ được thiết kế để vạch mặt các hố sâu có vượt qua được bản chất ngày càng phức tạp của khả năng tạo ra hố sâu hay không.
Nhìn nhận mọi thứ một cách khác biệt trong thời đại Deepfake
Khi các công nghệ phát hiện giả mạo sâu của trí tuệ nhân tạo tiến bộ và tầm cỡ của phương tiện giả mạo sâu được nâng cao, khả năng lừa dối thông qua AI vượt quá khả năng xác định các thao tác như vậy có thể trở thành mối lo ngại, giống như trong trường hợp các văn bản do AI tạo ra mà sự phán xét của con người hiện là phương tiện chính để chống lại sự bịa đặt như vậy.
Các cá nhân bắt buộc phải làm quen với các dấu hiệu của video deepfake để bảo vệ bản thân trước các âm mưu lừa đảo tiềm ẩn cũng như giảm thiểu nguy cơ lan truyền thông tin sai lệch. Tính phổ biến của truyền thông kỹ thuật số đòi hỏi phải tăng cường cảnh giác trong việc xác minh thông tin được chia sẻ trực tuyến, kẻo nó làm tổn hại đến tính toàn vẹn của các tương tác và trao đổi của chúng ta.