Cẩn thận khi cho trẻ xem video trên YouTube: Phụ đề chèn đầy ngôn ngữ tục tĩu

Thứ tư, 09/03/2022 | Tin công nghệ | Lượt xem: 1146

Đừng quá ngạc nhiên khi con bạn học được những từ bậy bạ và tục tĩu, dù chúng chỉ suốt ngày ở nhà xem YouTube.

Có gần 400.000 người đăng ký tài khoản YouTube có tên Rob the Robot - Learning Videos For Children. Trong một video hoạt hình năm 2020, nhân vật chính và những người bạn của anh ta đến thăm một hành tinh có chủ đề sân vận động và thực hiện những chiến công lấy cảm hứng từ người hùng Heracles. Cuộc phiêu lưu của họ phù hợp với lứa tuổi tiểu học, nhưng những độc giả nhỏ tuổi bật phụ đề tự động của YouTube có thể sẽ bất ngờ được mở rộng vốn từ vựng của họ. Tại một thời điểm, các thuật toán của YouTube nghe nhầm từ “dũng cảm” (brave) thành "cưỡng hiếp" (rape) và đã chú thích cảnh một nhân vật khao khát trở thành người “mạnh mẽ và bị cưỡng hiếp như Heracles”.

Ảnh chụp màn hình từ video trên kênh YouTube Rob the Robot - Learning Videos For Children

Một nghiên cứu mới đây về phụ đề theo thuật toán của YouTube trên các video hướng đến trẻ em đã ghi lại cách văn bản đôi khi chuyển sang ngôn ngữ "rất người lớn". Trong một mẫu gồm hơn 7.000 video từ 24 kênh dành cho trẻ em được xếp hạng hàng đầu, 40% trong số này từng hiển thị 1.300 từ "cấm kỵ" có nội dung về chửi bới trong phụ đề của chúng. Trong khoảng 1% video, phụ đề bao gồm các từ trong danh sách các thuật ngữ “rất không phù hợp”.

Một số video được đăng trên Ryan's World, một kênh dành cho trẻ em hàng đầu với hơn 30 triệu người đăng ký, là minh họa rõ ràng nhất cho vấn đề này. Trong một video, cụm từ “Bạn cũng nên mua ngô” được đưa ra trong chú thích là “Bạn cũng nên mua phim khiêu dâm”. Vì AI của hệ thống đã nhầm "corn" thành "p*rn". Trong các video khác, “khăn tắm biển” (beach towel) được phiên âm là “khăn lông chó” (b*tch towel), "khác thường" (buster) trở thành “khốn nạn” (bastard), “cua” (crab) trở thành “đồ tào lao” (crap) và trên một video thủ công dạy cách làm nhà búp bê theo chủ đề quái vật lại có từ “giường cho dương vật” (bed for p*nis).

Ảnh chụp màn hình từ video trên kênh Ryan's World.

“Thật là đáng ngạc nhiên và đáng lo ngại", Ashique KhudaBukhsh, một trợ lý giáo sư tại Học viện Công nghệ Rochester, người đã nghiên cứu vấn đề này, cho biết.

Phụ đề tự động không khả dụng trên YouTube Kids, phiên bản hướng đến trẻ em của nền tảng. Nhưng, nhiều gia đình thường sử dụng phiên bản tiêu chuẩn của YouTube, nơi họ cũng có thể xem được. Trung tâm Nghiên cứu Pew đã báo cáo vào năm 2020 rằng 80% phụ huynh có con từ 11 tuổi trở xuống cho biết con họ đã xem nội dung YouTube, và hơn 50% trẻ em đã làm như vậy hàng ngày.

KhudaBukhsh hy vọng nghiên cứu sẽ thu hút sự chú ý đến một hiện tượng mà ông nói rằng đã nhận được ít sự chú ý từ các công ty công nghệ và các nhà nghiên cứu. Ông gọi nó là "ảo giác nội dung không phù hợp". Đó là khi các thuật toán thêm nội dung không phù hợp vốn không có trong nội dung gốc. Đây giống như cách tính năng tự động hoàn thành trên điện thoại thông minh thường lọc ngôn ngữ người lớn đến mức khó chịu, nhưng theo hướng ngược lại.

Trong khi đó, người phát ngôn của YouTube, Jessica Gibby, cho biết trẻ em dưới 13 tuổi nên sử dụng YouTube Kids, nơi không thể xem phụ đề tự động. Trên phiên bản chuẩn của YouTube, cô cũng nói rằng tính năng này giúp cải thiện khả năng tiếp cận. Cô nói: “Chúng tôi liên tục làm việc để cải thiện phụ đề tự động và giảm lỗi".

Alafair Hall, phát ngôn viên của Pocket.watch, một studio giải trí dành cho trẻ em đã xuất bản nội dung của Ryan's World, cho biết trong một tuyên bố rằng công ty "đang liên hệ chặt chẽ và ngay lập tức với các đối tác nền tảng của chúng tôi, chẳng hạn như YouTube, để cập nhật bất kỳ phụ đề video nào không chính xác."

“Những lợi ích của việc chuyển lời nói thành văn bản là không thể phủ nhận, nhưng có những điểm mù trong các hệ thống này cần kiểm tra và cân bằng lại”, KhudaBukhsh nói.

Những điểm mù đó có thể không gây ngạc nhiên cho con người, một phần nhờ việc chúng ta dễ hiểu được ngữ cảnh rộng hơn và ý nghĩa từ lời nói của một người. Còn các thuật toán thì khác. Chúng dù đã được cải thiện khả năng xử lý ngôn ngữ nhưng vẫn thiếu đi khả năng hiểu vấn đề một cách đầy đủ và toàn diện. Điều này đã gây ra vấn đề cho các công ty dựa vào máy móc để xử lý văn bản. Một công ty khởi nghiệp đã phải sửa chữa lại trò chơi phiêu lưu do mình phát hành, sau khi nó được phát hiện là đôi khi mô tả các kịch bản tình dục liên quan đến trẻ vị thành niên.

Các thuật toán học máy sẽ “học” một nhiệm vụ bằng cách xử lý một lượng lớn dữ liệu đào tạo - trong trường hợp này là các tệp âm thanh và nội dung dịch thuật phù hợp. Ông KhudaBukhsh nói rằng hệ thống của YouTube đôi khi chèn những lời tục tĩu vì dữ liệu đào tạo của nó chủ yếu bao gồm lời nói của người lớn và có ít từ của trẻ em. Khi các nhà nghiên cứu kiểm tra thủ công các ví dụ về những từ không phù hợp trong phụ đề, họ thấy chúng thường xuất hiện cùng với lời nói của trẻ em hoặc những người có vẻ không phải là người nói tiếng Anh bản ngữ. Các nghiên cứu trước đây cũng đã phát hiện ra rằng các dịch vụ phiên âm từ Google và các công ty công nghệ lớn khác mắc nhiều lỗi hơn trong trường hợp người nói không phải là người da trắng, cũng như ít lỗi hơn đối với tiếng Anh Mỹ chuẩn, so với các phương ngữ khác cũng ở Mỹ.

Trẻ học rất nhanh mọi thứ chúng thấy trên YouTube.

Rachael Tatman, một nhà ngôn ngữ học, cho biết chỉ cần một danh sách các từ đơn giản không được sử dụng trên video cho trẻ em trên YouTube sẽ giải quyết nhiều vấn đề. Nhưng, “rõ ràng không có ai giám sát kỹ thuật”, cô nói.

Dẫu vậy, Tatman nói rằng một danh sách chặn cũng sẽ là một giải pháp không hoàn hảo. Các cụm từ không phù hợp có thể được xây dựng bằng các từ vô thưởng vô phạt riêng lẻ. Một cách tiếp cận phức tạp hơn là điều chỉnh hệ thống phụ đề để tránh sử dụng ngôn ngữ người lớn khi làm nội dung dành cho trẻ em, nhưng Tatman nói rằng nó cũng sẽ không hoàn hảo. Phần mềm học máy hoạt động với ngôn ngữ được thống kê theo các hướng nhất định, nhưng nó không dễ dàng được lập trình để tôn trọng ngữ cảnh. Theo Tatman, “các mô hình ngôn ngữ không phải là công cụ chính xác."

KhudaBbukhsh và các cộng tác viên của ông đã phát minh và thử nghiệm các hệ thống để sửa các từ cấm kỵ trong bản ghi, nhưng ngay cả những hệ thống tốt nhất vẫn chỉ mang lại hiệu quả chưa tới 30%. Nhóm cũng chạy âm thanh từ các video YouTube của trẻ em thông qua một dịch vụ phiên âm tự động do Amazon cung cấp. Nó cũng đôi khi mắc phải những sai lầm khiến nội dung bị chỉnh sửa. Người phát ngôn của Amazon, Nina Lindsey từ chối bình luận vấn đề, nhưng đã cung cấp các liên kết đến tài liệu hướng dẫn các nhà phát triển về cách sửa hoặc lọc các từ không mong muốn.

Tham khảo Wired

Theo: PHÁP LUẬT & BẠN ĐỌC

Từ khóa: Cẩn thận khi cho trẻ xem video trên YouTube: Phụ đề chèn đầy ngôn ngữ tục tĩu

Tin công nghệ khác

CÁC TIN ĐƯỢC QUAN TÂM GẦN ĐÂY

"Huyền thoại" Winamp công bố mã nguồn mở

Chuyện gì đang xảy ra tại OpenAI, Google

Những hạn chế công nghệ 'kinh điển' chưa có lời giải

Sau 40 năm, Microsoft vừa cập nhật một phần mềm cơ bản trên Windows

'Thành trì' của đĩa mềm đã sụp đổ

AI làm được những gì trên iPhone?

Cáp quang truyền dẫn Internet nhanh nhất thế giới

Microsoft Edge vừa cho chúng ta thêm 1 lý do tại sao nó tốt hơn Chrome

Đừng để mất iPhone ở Hàn Quốc

Intel đã tìm ra nguyên nhân gốc rễ gây sự cố trên CPU thế hệ 13 và 14

CÁC TIN ĐƯỢC XEM NHIỀU

AI của Google có thể code tốt hơn cả con người, vượt mặt hàng loạt coder trong một cuộc thi

Công ty tiếp thị dừng thuê người ngoài thiết kế và viết nội dung, dùng AI thay thế

Coin và token khác nhau như thế nào trong thế giới blockchain?

87 triệu người dùng trình duyệt Chrome gặp nguy hiểm, bạn có trong số đó?

NFT được chọn là từ của năm 2021

Nguồn gốc tên gọi hệ điều hành Windows

BÀI VIẾT HAY GẦN ĐÂY

Cách gộp và chia nhiều Ô trong Word 2007, 2010, 2013

Thứ ba, 22/09/2015 | MS Word | Lượt xem: 246483

Trong khi thực hành với Ô, cột để dễ hiểu đẹp mắt nhiều lúc ta cần phải gộp nhiều ô thành một ô, chia một ô thành nhiều ô, sau đây chúng tôi sẽ hướng dẫn các bạn chia ô và gộp ô trong Word 2007, 2010, 2013

Lỗi không tìm thấy máy tính khác trong mạng LAN của Window7/8/10

Thứ ba, 10/10/2017 | Thủ thuật | Lượt xem: 144783

Lỗi không tìm thấy máy khác hoặc không thể chia sẽ tài nguyên trong mạng LAN ở Window 7/8/10. Đây là lỗi khá phổ biến hiện nay, khi các máy tính trong công ty hoặc ở nhà cùng kết nối mạng LAN nhưng lại không tìm thấy nhau, khiến việc chia sẻ tài nguyên không thể thực hiện được, ảnh hưởng đến công việc.

Hiển thị Sheet tab trong Excel 2007 bị ẩn

Thứ bảy, 05/11/2016 | MS Excel | Lượt xem: 111973

Khi làm việc với Excel có lúc bạn gặp trường hợp là không thấy thanh sheet tab của excel đâu cả và bạn không thể mở các sheet khác của excel ngoại trừ sheet đầu tiên.

Cách unhide dòng, cột đầu tiên trong Excel

Thứ tư, 22/03/2017 | MS Excel | Lượt xem: 94153

Trong quá trình thao tác đối với bảng tính Excel, cột và hàng đầu tiên trong bảng tính đã bị Hide ( dấu đi) nhưng đối với cách Unhide thông thường thì ta không thể Unhide đối với những hàng và cột đầu tiên. Hôm nay Tayninhit sẽ giới thiệu đến các bạn cách Unhide một cách dễ dàng đối với cột và dòng đầu tiên trong Excel.

Cách chèn checkbox trên Excel 2007, 2010

Thứ bảy, 19/09/2015 | MS Excel | Lượt xem: 76003

Cách chèn checkbox trên Excel 2007, 2010,chọn hay check vào ô trong Excel

Đồng bộ dữ liệu Google drive với máy tính

Thứ sáu, 17/06/2016 | Internet và Email | Lượt xem: 75387

Tích hợp dịch vụ lưu trữ dữ liệu đám mây Google drive ngay trên máy tính để tạo, chỉnh sửa file/thư mục và đồng bộ một cách tiện lợi nhất mà không cần phải vào trang drive.google.com.

Cách đơn giản tạo đường gạch chéo trong Word 2007, 2010, 2013

Thứ ba, 27/10/2015 | MS Word | Lượt xem: 73078

Gạch chéo phân cách giữa 2 ô trong Word là 1 định dạng khá phổ biến khi bạn muốn viết 2 tiêu đề, 2 mục trên 1 ô duy nhất. Việc này sẽ giúp tiết kiệm không gian của bảng mà không cần phải tạo riêng một ô, mà vẫn phân tách nội dung và các cột rõ ràng để người dùng theo dõi.

Cách Reset ID TeamViewer 14 không hết hạn dùng

Thứ năm, 04/04/2019 | Thủ thuật | Lượt xem: 71807

Teamviewer 14 hiện đang là phần mềm số một về chức năng kết nối và điều khiển máy tính từ xa, khả năng kết nối với bất cứ hệ thống nào từ khắp mọi địa điểm trên thế giới. Tuy nhiên khi sử dụng một thời gian thì sẽ bị giới hạn dùng 5 phút hoặc không sử dụng được nữa. TeamViewer 14 Reset ID là công cụ giúp bạn giải quyết tình trạng này.

Cách xóa, chỉnh sửa hình nền trong POWERPOINT 2010

Thứ hai, 30/11/2015 | MS Powerpoint | Lượt xem: 65712

Trong Powerpoint có các chức năng thay đổi, chỉnh sửa hình nền làm cho slide của chúng ta đẹp mắt và sinh động hơn, hôm nay tayninhit.info sẽ giới thiệu đến các bạn cách chọn thay đổi hình nền, chỉnh sửa hình nền thêm sinh động hơn.