Cẩn thận khi cho trẻ xem video trên YouTube: Phụ đề chèn đầy ngôn ngữ tục tĩu

Thứ tư, 09/03/2022  |  Tin công nghệ  |  Lượt xem: 362

Đừng quá ngạc nhiên khi con bạn học được những từ bậy bạ và tục tĩu, dù chúng chỉ suốt ngày ở nhà xem YouTube.
 
Có gần 400.000 người đăng ký tài khoản YouTube có tên Rob the Robot - Learning Videos For Children. Trong một video hoạt hình năm 2020, nhân vật chính và những người bạn của anh ta đến thăm một hành tinh có chủ đề sân vận động và thực hiện những chiến công lấy cảm hứng từ người hùng Heracles. Cuộc phiêu lưu của họ phù hợp với lứa tuổi tiểu học, nhưng những độc giả nhỏ tuổi bật phụ đề tự động của YouTube có thể sẽ bất ngờ được mở rộng vốn từ vựng của họ. Tại một thời điểm, các thuật toán của YouTube nghe nhầm từ “dũng cảm” (brave) thành "cưỡng hiếp" (rape) và đã chú thích cảnh một nhân vật khao khát trở thành người “mạnh mẽ và bị cưỡng hiếp như Heracles”.
 
Ảnh chụp màn hình từ video trên kênh YouTube Rob the Robot - Learning Videos For Children
 
Một nghiên cứu mới đây về phụ đề theo thuật toán của YouTube trên các video hướng đến trẻ em đã ghi lại cách văn bản đôi khi chuyển sang ngôn ngữ "rất người lớn". Trong một mẫu gồm hơn 7.000 video từ 24 kênh dành cho trẻ em được xếp hạng hàng đầu, 40% trong số này từng hiển thị 1.300 từ "cấm kỵ" có nội dung về chửi bới trong phụ đề của chúng. Trong khoảng 1% video, phụ đề bao gồm các từ trong danh sách các thuật ngữ “rất không phù hợp”.
 
Một số video được đăng trên Ryan's World, một kênh dành cho trẻ em hàng đầu với hơn 30 triệu người đăng ký, là minh họa rõ ràng nhất cho vấn đề này. Trong một video, cụm từ “Bạn cũng nên mua ngô” được đưa ra trong chú thích là “Bạn cũng nên mua phim khiêu dâm”. Vì AI của hệ thống đã nhầm "corn" thành "p*rn". Trong các video khác, “khăn tắm biển” (beach towel) được phiên âm là “khăn lông chó” (b*tch towel), "khác thường" (buster) trở thành “khốn nạn” (bastard), “cua” (crab) trở thành “đồ tào lao” (crap) và trên một video thủ công dạy cách làm nhà búp bê theo chủ đề quái vật lại có từ “giường cho dương vật” (bed for p*nis).
 
Ảnh chụp màn hình từ video trên kênh Ryan's World.
 
Thật là đáng ngạc nhiên và đáng lo ngại", Ashique KhudaBukhsh, một trợ lý giáo sư tại Học viện Công nghệ Rochester, người đã nghiên cứu vấn đề này, cho biết.
 
Phụ đề tự động không khả dụng trên YouTube Kids, phiên bản hướng đến trẻ em của nền tảng. Nhưng, nhiều gia đình thường sử dụng phiên bản tiêu chuẩn của YouTube, nơi họ cũng có thể xem được. Trung tâm Nghiên cứu Pew đã báo cáo vào năm 2020 rằng 80% phụ huynh có con từ 11 tuổi trở xuống cho biết con họ đã xem nội dung YouTube, và hơn 50% trẻ em đã làm như vậy hàng ngày.
 
KhudaBukhsh hy vọng nghiên cứu sẽ thu hút sự chú ý đến một hiện tượng mà ông nói rằng đã nhận được ít sự chú ý từ các công ty công nghệ và các nhà nghiên cứu. Ông gọi nó là "ảo giác nội dung không phù hợp". Đó là khi các thuật toán thêm nội dung không phù hợp vốn không có trong nội dung gốc. Đây giống như cách tính năng tự động hoàn thành trên điện thoại thông minh thường lọc ngôn ngữ người lớn đến mức khó chịu, nhưng theo hướng ngược lại.
 
Trong khi đó, người phát ngôn của YouTube, Jessica Gibby, cho biết trẻ em dưới 13 tuổi nên sử dụng YouTube Kids, nơi không thể xem phụ đề tự động. Trên phiên bản chuẩn của YouTube, cô cũng nói rằng tính năng này giúp cải thiện khả năng tiếp cận. Cô nói: “Chúng tôi liên tục làm việc để cải thiện phụ đề tự động và giảm lỗi".
 
Alafair Hall, phát ngôn viên của Pocket.watch, một studio giải trí dành cho trẻ em đã xuất bản nội dung của Ryan's World, cho biết trong một tuyên bố rằng công ty "đang liên hệ chặt chẽ và ngay lập tức với các đối tác nền tảng của chúng tôi, chẳng hạn như YouTube, để cập nhật bất kỳ phụ đề video nào không chính xác."
 
Những lợi ích của việc chuyển lời nói thành văn bản là không thể phủ nhận, nhưng có những điểm mù trong các hệ thống này cần kiểm tra và cân bằng lại”, KhudaBukhsh nói.
 
Những điểm mù đó có thể không gây ngạc nhiên cho con người, một phần nhờ việc chúng ta dễ hiểu được ngữ cảnh rộng hơn và ý nghĩa từ lời nói của một người. Còn các thuật toán thì khác. Chúng dù đã được cải thiện khả năng xử lý ngôn ngữ nhưng vẫn thiếu đi khả năng hiểu vấn đề một cách đầy đủ và toàn diện. Điều này đã gây ra vấn đề cho các công ty dựa vào máy móc để xử lý văn bản. Một công ty khởi nghiệp đã phải sửa chữa lại trò chơi phiêu lưu do mình phát hành, sau khi nó được phát hiện là đôi khi mô tả các kịch bản tình dục liên quan đến trẻ vị thành niên.
 
Các thuật toán học máy sẽ “học” một nhiệm vụ bằng cách xử lý một lượng lớn dữ liệu đào tạo - trong trường hợp này là các tệp âm thanh và nội dung dịch thuật phù hợp. Ông KhudaBukhsh nói rằng hệ thống của YouTube đôi khi chèn những lời tục tĩu vì dữ liệu đào tạo của nó chủ yếu bao gồm lời nói của người lớn và có ít từ của trẻ em. Khi các nhà nghiên cứu kiểm tra thủ công các ví dụ về những từ không phù hợp trong phụ đề, họ thấy chúng thường xuất hiện cùng với lời nói của trẻ em hoặc những người có vẻ không phải là người nói tiếng Anh bản ngữ. Các nghiên cứu trước đây cũng đã phát hiện ra rằng các dịch vụ phiên âm từ Google và các công ty công nghệ lớn khác mắc nhiều lỗi hơn trong trường hợp người nói không phải là người da trắng, cũng như ít lỗi hơn đối với tiếng Anh Mỹ chuẩn, so với các phương ngữ khác cũng ở Mỹ.
 
Trẻ học rất nhanh mọi thứ chúng thấy trên YouTube.
 
Rachael Tatman, một nhà ngôn ngữ học, cho biết chỉ cần một danh sách các từ đơn giản không được sử dụng trên video cho trẻ em trên YouTube sẽ giải quyết nhiều vấn đề. Nhưng, “rõ ràng không có ai giám sát kỹ thuật”, cô nói.
 
Dẫu vậy, Tatman nói rằng một danh sách chặn cũng sẽ là một giải pháp không hoàn hảo. Các cụm từ không phù hợp có thể được xây dựng bằng các từ vô thưởng vô phạt riêng lẻ. Một cách tiếp cận phức tạp hơn là điều chỉnh hệ thống phụ đề để tránh sử dụng ngôn ngữ người lớn khi làm nội dung dành cho trẻ em, nhưng Tatman nói rằng nó cũng sẽ không hoàn hảo. Phần mềm học máy hoạt động với ngôn ngữ được thống kê theo các hướng nhất định, nhưng nó không dễ dàng được lập trình để tôn trọng ngữ cảnh. Theo Tatman, “các mô hình ngôn ngữ không phải là công cụ chính xác."
 
KhudaBbukhsh và các cộng tác viên của ông đã phát minh và thử nghiệm các hệ thống để sửa các từ cấm kỵ trong bản ghi, nhưng ngay cả những hệ thống tốt nhất vẫn chỉ mang lại hiệu quả chưa tới 30%. Nhóm cũng chạy âm thanh từ các video YouTube của trẻ em thông qua một dịch vụ phiên âm tự động do Amazon cung cấp. Nó cũng đôi khi mắc phải những sai lầm khiến nội dung bị chỉnh sửa. Người phát ngôn của Amazon, Nina Lindsey từ chối bình luận vấn đề, nhưng đã cung cấp các liên kết đến tài liệu hướng dẫn các nhà phát triển về cách sửa hoặc lọc các từ không mong muốn.
 
 
 
Tham khảo Wired
 
  Theo: PHÁP LUẬT & BẠN ĐỌC
  Từ khóa: Cẩn thận khi cho trẻ xem video trên YouTube: Phụ đề chèn đầy ngôn ngữ tục tĩu

CÁC TIN ĐƯỢC QUAN TÂM GẦN ĐÂY


CÁC TIN ĐƯỢC XEM NHIỀU


BÀI VIẾT HAY GẦN ĐÂY

Cách chặn trẻ truy cập internet, chơi game trên máy tính
Thứ bảy, 25/12/2021  |  Thủ thuật  |  Lượt xem: 7673

Trong gia đình bạn có nhiều trẻ thường xuyên sử dụng Internet, chơi game và bạn luôn kiểm tra rằng con em của mình đã xem hoặc truy cập vào những trang Web như thế nào thông qua lịch sử trình duyệt Web. Nhưng làm sao để chặn một Website hoặc phần mềm game nào đó để ngăn con em mình truy cập?

Chèn ký tự đặc biệt trong Google Sheet
Thứ năm, 07/10/2021  |  MS Excel  |  Lượt xem: 3226

Bạn đã biết cách để chèn ký tự đặc biệt trong Google Sheet? Hôm nay chúng tôi sẽ giới thiệu đến các bạn cách chèn ký tự đặc biệt trong Google Sheet cực nhanh và đơn giản

Cài đặt driver máy in hóa đơn Xprinter khổ in 57,80
Thứ bảy, 09/10/2021  |  Phần mềm  |  Lượt xem: 2231

Máy in hóa đơn Xprinter là dòng máy được bán chạy nhất tại Việt Nam hiện nay nên nhu cầu sử dụng cũng như cài đặt ngày càng nhiều để sử dụng cùng các phần mềm bán hàng. Hôm nay, TayNinhIT hướng dẫn cho các bạn cách cài đặt driver của máy in hóa đơn Xprinter với khổ 80,57.

Cách cấu hình, kiểm tra máy in hóa đơn in bill
Thứ bảy, 09/10/2021  |  Phần mềm  |  Lượt xem: 1495

Máy in hóa đơn (In bill) là dòng máy in có nhu cầu sử dụng cũng như cài đặt ngày càng nhiều để sử dụng cùng các phần mềm bán hàng. Bài viết trước chúng tôi đã hướng dẫn các bạn cách cài đặt driver máy in, TayNinhIT hướng dẫn cho các bạn cách cấu hình và kiểm tra in thử của máy in hóa đơn với khổ 80,57

Top 5 phần mềm kiểm tra cấu hình phần cứng máy tính, laptop
Thứ sáu, 15/10/2021  |  Phần mềm  |  Lượt xem: 1460

Cấu hình phần cứng máy tính là một trong những yếu tố khá quan trọng quyết định hiệu năng của máy. Mỗi một cấu hình sẽ đáp ứng được nhu cầu sử dụng nhất định của người dùng. Tuy nhiên nhiều người không biết làm thế nào để biết cách kiểm tra cấu hình máy tính của mình.

Cách vào Bios Mainboard trên các dòng máy tính
Thứ tư, 01/12/2021  |  Thủ thuật  |  Lượt xem: 1454

Mỗi khi bạn có nhu cầu cập nhật BIOS hoặc sử dụng BIOS để dọn dẹp PC, nắm rõ cách vào BIOS sẽ rất giúp ích trong quá trình sử dụng PC. Mỗi loại mainboard sẽ có cách vào BIOS khác nhau, bài viết sau đây sẽ hướng dẫn bạn cách vào BIOS mainboard máy tính.

7 dịch vụ lưu trữ đám mây Cloud miễn phí, tốt nhất hiện nay
Thứ sáu, 22/10/2021  |  Internet và Email  |  Lượt xem: 1412

Hiện nay, hình thức lưu trữ trực tuyến ngày càng trở nên phổ biến hơn vì tính tiện dụng, khả năng truy cập mọi lúc mọi nơi. Chúng tôi sẽ giới thiệu với bạn top 7 dịch vụ lưu trữ đám mây miễn phí mà theo chúng tôi rất tốt và đáng dùng nhất.

Cách sửa lỗi Font chữ trong Word bằng Unikey
Thứ bảy, 16/10/2021  |  MS Word  |  Lượt xem: 1311

Khi bạn download tài liệu từ trên internet hoặc copy dữ liệu từ một máy tính khác thì rất dễ xảy ra lỗi font chữ.Như vậy, Làm cách nào để sửa lỗi Font chữ trong Word?

Cách chia sẻ, share máy in qua mạng LAN trên Windows 10
Thứ hai, 25/10/2021  |  Thủ thuật  |  Lượt xem: 1238

Bạn đang cần in tài liệu, nhưng văn phòng chỉ có đúng một cái máy in và đang kết nối với máy tính khác. Việc đổi máy để in tài liệu gây ra nhiều bất tiện, đặc biệt là nếu phải in với số lượng nhiều. Với cách chia sẻ (share) máy in ở mạng LAN sẽ giải quyết được vấn đề này một cách nhanh chóng.

BÀI VIẾT MỚI
BÀI XEM NHIỀU
BÀI CỦ MÀ HAY
PHẦN MỀM QUẢN LÝ
Thông tin

Bản quyền © 2015-2021 Tayninhit.info. Giữ toàn quyền. Khi sao chép, sử dụng hoặc phát hành lại bất kỳ nội dung nào thuộc Tayninhit.info thì ghi rõ nguồn phát hành là Tayninhit.info.

Thiết kế và Phát triển bởi Công Ty TNHH Tin Học Tín Nghệ

Quản trị nội dung Đào Minh Triệu - Liên hệ đặt quảng cáo Ms. Hiền 0979.825.837

Điện thoại: 0979 708 108 - Email: tinhoctinnghe@gmail.com

Địa chỉ: 115 đường 78A4 Nguyễn Chí Thanh, Kp. Long Kim, P. Long Thành Trung, Tx. Hòa Thành, Tây Ninh

Facebook Tây Ninh IT   Google plus Tây Ninh IT   twitter Tây Ninh IT   Giải pháp phần mềm quản lý Xăng dầu, Phòng khám, khai thác đất đá   RSS Tây Ninh IT