- Biển số
- OF-626585
- Ngày cấp bằng
- 24/3/19
- Số km
- 8,426
- Động cơ
- 310,264 Mã lực
Đoạn trích trên nói về việc sinh hình ảnh từ mô tả text bằng tiếng Nga, lần này là sinh video với nền tảng Visper, có cả version bằng tiếng Nga và vừa mới ra bản Anh. Điểm đáng ghét là hiện nay nó bắt phải dùng trình duyệt Web của Yandex, tạm thời chưa hỗ trợ trình duyệt khác. Các bác vào đây để thử nếu muốn,Mỹ, Nga, TQ đều đã phát triển chương trình trí tuệ nhân tạo (AI) sử dụng mạng neuron (neural network) sinh ra hình ảnh từ mô tả text. Tiên phong là Mỹ, sau đó TQ, rồi Nga
Chương trình AI này của Nga do Sher của SherBank phát triển. Sher là mới nổi lên của Nga trong làng công nghệ cao mà bác evoque2012 đã nhắc đến.
Chương trình AI này tên là ruDALL-E. Các bác có thể thử nó ở đây,
Dĩ nhiên phải viết mô tả bằng tiếng Nga, ai không biết tiếng Nga thì nhờ Google dịch từ tiếng Anh sang.
Tôi đã viết từ con ngựa trắng bằng tiếng Nga, bằng cách dịch từ tiếng Anh "white horse" sang tiếng Nga nhờ Google Translate, và đây là kết quả nó sinh ra
View attachment 6637825
Chương trình trí tuê nhân tạo này của Nga được cung cấp dưới dạng mã nguồn mở. Nó đây
Sherbank còn có một số version chương trình trí tuệ nhân tạo làm việc này chứ không chỉ ruDALL-E, và đều là mã nguồn mở, chúng đâyGitHub - ai-forever/ru-dalle: Generate images from texts. In Russian
Generate images from texts. In Russian. Contribute to ai-forever/ru-dalle development by creating an account on GitHub.github.com
GitHub - ai-forever/tuned-vq-gan
Contribute to ai-forever/tuned-vq-gan development by creating an account on GitHub.github.comGitHub - ai-forever/ru-clip: CLIP implementation for Russian language
CLIP implementation for Russian language. Contribute to ai-forever/ru-clip development by creating an account on GitHub.github.comGitHub - ai-forever/Real-ESRGAN: PyTorch implementation of Real-ESRGAN model
PyTorch implementation of Real-ESRGAN model. Contribute to ai-forever/Real-ESRGAN development by creating an account on GitHub.github.com
Một số hình ảnh khác đươc sinh ra từ chương trình ruDALL-E này
View attachment 6637826
View attachment 6637827
View attachment 6637828
View attachment 6637829
View attachment 6637830 View attachment 6637831
Đây thực chất là bộ sinh hình ảnh image generation, model generator
Mạng nơ-ron được đào tạo đồng thời trên hai loại dữ liệu - hình ảnh và văn bản, đồng thời cho phép bạn tạo không giới hạn số lượng hình ảnh mới theo mô tả nhất định. Có hai biến thể của mô hình: ruDALL-E XL, chứa 1,3 tỷ tham số; ruDALL-E 12B với 12 tỷ tham số.
Mô hình ruDALL-E XL có thể được sử dụng miễn phí bằng cách tải xuống từ dịch vụ Github. Cả hai mô hình cũng sẽ sớm có mặt trên ML Space tại DataHub của SberCloud cho các mô hình và bộ dữ liệu được đào tạo trước.
Việc tạo hình ảnh bằng ruDALL-E xảy ra trong ba giai đoạn: đầu tiên, một mạng nơ-ron chấp nhận văn bản làm đầu vào và tạo ra một số lượng hình ảnh nhất định, sau đó giai đoạn tiếp theo chọn chúng thành công nhất và phù hợp với mô tả nhất có thể và thứ ba làm tăng kích thước của chúng mà không làm giảm chất lượng. Do đó, bạn có thể nhận được vô số hình ảnh mới phù hợp với các đặc điểm đã chỉ định.
Trước đó (cũng trong năm nay 2021), version tiếng Anh DALL-E của OpenAI, Mỹ đã ra đời và là tiên phong. Tuy tên là Open, nhưng cho đến giờ họ vẫn chưa hề công bố mã mô hình. OpenAI đưa ra 1 publication và mô tả nó bằng các thuật ngữ chung, nhưng bỏ qua một số sắc thái triển khai quan trọng. Vì thế nên Nga (SberDevices và Sber AI, với sự hỗ trợ của SberCloud) đã phải viết code của riêng mình để đào tạo các mô hình ruGPT và cũng viết code của riêng mình cho mô hình DALL-E (ví dụ các chi tiết như mã hóa vị trí của các khối hình ảnh, mặt nạ phức hợp và tọa độ của các Attention layers, bản trình bày chung về nhúng văn bản và hình ảnh, weighted losses đối với các phần văn bản và hình ảnh, và bộ tách lớp bỏ trang, etc.). Phía Nga cũng tiếp thu một số ý tưởng từ công trình của CogView Đại học Thanh Hoa, Trung Quốc, cùng với các nghiên cứu của riêng mình, từ đó tiến hành được việc training ổn định.
SberDevices và Sber AI, với sự hỗ trợ của SberCloud, đã khởi động quá trình đào tạo mạng nơ-ron trên nền tảng ML Space dựa trên siêu máy tính Christophari, Kết quả là mô hình lớn nhất thuộc loại này trên thế giới hoạt động với tiếng Nga: đào tạo mất 23 nghìn giờ GPU trên một mảng 120 triệu cặp hình ảnh văn bản. Dự án đào tạo ruDALL-E đã trở thành dự án điện toán mạng nơ-ron lớn nhất ở Nga và SNG.
David Rafalovsky, Phó chủ tịch điều hành của Sberbank, CTO của Sber, người đứng đầu khối Công nghệ, cho biết: “Ngoài việc đóng góp vào sự tiến bộ trong lĩnh vực AI, việc tạo hình ảnh bao gồm hai nhu cầu quan trọng của doanh nghiệp hiện đại - khả năng có được một hình ảnh độc đáo. dưới mô tả của riêng bạn, cũng như trong bất kỳ thời điểm nào để tạo ra số lượng hình minh họa miễn phí cần giấy phép. Đồng thời, việc tạo ra các mạng nơ-ron "đa phương thức" được đào tạo trên nhiều loại dữ liệu cùng một lúc, ngay cả bây giờ, trong thời đại dữ liệu lớn và khả năng tìm kiếm khổng lồ, sẽ có nhu cầu rất lớn, vì nó giải quyết được các vấn đề về cơ bản mức độ khác nhau. Công nghệ vẫn hoàn toàn mới, các bước đầu tiên theo hướng này chỉ được thực hiện vào năm 2020 và trở lại vào năm 2018-2019. Ngay cả việc xây dựng một nhiệm vụ như vậy là không thể tưởng tượng được.ruDALL-E có thể được coi là một bước đột phá thực sự đối với ngành công nghiệp Nga. "
ruDALL-E: generating images from text descriptions, or the largest computational project in Russia
ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России
ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России
2021 год в машинном обучении ознаменовался мультимодальностью — активно развиваются нейросети, работающие одновременно с изображениями, текстами, речью, музыкой. Правит балом, как обычно, OpenAI, но,...habr.com
Upload lên văn bản mô tả, có thể thêm bản trình bày PDF
Upload lên - ảnh hoặc video nền
Đặt nhân vật vào khung theo cách mình thích, thêm cử chỉ. Xong
Sber đã trình bày phiên bản tiếng Anh của nền tảng nhân vật trực quan (visual character) Visper tại Hội nghị thượng đỉnh
Nền tảng Visper , cho phép bạn tạo video với các nhân vật hoạt hình và chân thực, đã có sẵn bằng tiếng Anh. Buổi ra mắt phiên bản tiếng Anh của nền tảng này đã diễn ra tại một trong những hội nghị công nghệ quốc tế quan trọng - Web Summit 2021, diễn ra từ ngày 1 đến ngày 4 tháng 11 tại Lisbon, Bồ Đào Nha.
Người dùng trên toàn thế giới hiện có thể tạo nội dung trực quan với sự trợ giúp của nó. Ngoài việc dịch giao diện, cũng có một tùy chọn để tạo giọng nói bằng tiếng Anh: bạn chỉ cần nhập văn bản - và hình đại diện sẽ đọc nó với cách phát âm chính xác.
Trong khi trước đây người dùng Visper có thể tạo video có thể hiểu được cho 200 triệu người nói tiếng Nga, thì giờ đây, lượng khán giả tiềm năng đã tăng hơn gấp tám lần - nhờ khoảng 1,5 tỷ người nói tiếng Anh.
Các nhân vật mới cũng đã xuất hiện trên nền tảng: bây giờ bạn có thể tạo video với ba hình đại diện thực tế (Elena, Peter và Eva) và ba hình động - (Matilda, Vee và Kira). Các hình ảnh và trang phục khác nhau có sẵn cho họ, bốn giọng nữ và hai giọng nam để lồng tiếng Nga và năm giọng nữ và nam cho tiếng Anh. Bạn có thể tải lên bản ghi âm của riêng mình - và sau đó biểu cảm khuôn mặt của nhân vật sẽ thích ứng với nó. Bài phát biểu của mỗi hình đại diện có thể được đánh dấu theo quốc gia: đặt các khoảng dừng và dấu trọng âm, đi kèm với cử chỉ, thêm nhạc và nền. Bạn có thể lấy bất kỳ bản trình bày nào làm cơ sở cho video, cũng như tạo hoạt ảnh cho ảnh của riêng bạn và chèn nó vào video.
Visper cho phép các nhà sản xuất nội dung và nhà phát triển sản phẩm thông tin tạo ra nội dung chất lượng nhanh hơn, rẻ hơn và thử nghiệm với các định dạng. Với nền tảng này, bạn có thể nhanh chóng tạo video sáng tạo mà không cần quay phim tốn kém và mất thời gian, tạo hoạt ảnh cho nội dung văn bản bằng video, nhanh chóng nhận tài liệu trực quan để thay đổi động nội dung (tin tức, thông báo) và cá nhân hóa giao tiếp.
Mỗi tháng, bất kỳ ai cũng có thể tạo hai phút video miễn phí. Cả thanh toán theo phút và đăng ký đều có sẵn, và dành cho doanh nghiệp - và cá nhân, dựa trên các chi tiết cụ thể của hoạt động.
Nền tảng này đã được ra mắt chỉ sáu tháng trước và nó đã có sẵn cho người dùng trên khắp thế giới. Hiện tại, dịch vụ được sử dụng bởi 17 nghìn người, những người tạo video có nhân vật của chúng tôi hàng ngày, mỗi nhân vật trong số đó là duy nhất và phù hợp với khán giả và mục đích khác nhau. Việc tạo ra giao diện ngôn ngữ tiếng Anh trở thành một sự tiếp nối hợp lý trong quá trình phát triển của dự án. Điều này sẽ cho phép chúng tôi thu hút khán giả quốc tế và giới thiệu với thế giới về sự phát triển của chúng tôi, David Rafalovsky , phó chủ tịch điều hành của Sberbank, CTO của Sber, người đứng đầu khối Technologies, cho biết:
Sber presented at the Web Summit the English version of the Visper visual characters platform
Сбер представил на Web Summit англоязычную версию платформы визуальных персонажей Visper
Сбер представил на Web Summit англоязычную версию платформы визуальных персонажей Visper
Платформа Visper, которая позволяет генерировать видеоролики с фотореалистичными и анимационными персонажами, стала доступна на английском языке. Премьера англоязычной версии платформы состоялась на одной из ключевых международных технологических конференций — Web Summit 2021, проходящей с 1 по...
press.sber.ru
-------------------------------------------------------
Sberbank đã trình bày phiên bản tiếng Anh của nền tảng các nhân vật trực quan Visper
Nền tảng Visper, cho phép bạn tạo video với các nhân vật hoạt hình và chân thực, đã có sẵn bằng tiếng Anh.
Người dùng trên toàn thế giới hiện có thể tạo nội dung trực quan với sự trợ giúp của nó. Ngoài việc dịch giao diện, cũng có một tùy chọn để tạo giọng nói bằng tiếng Anh: bạn chỉ cần nhập văn bản - và hình đại diện sẽ đọc nó với cách phát âm chính xác.
Trong khi trước đây người dùng Visper có thể tạo video có thể hiểu được cho 200 triệu người nói tiếng Nga, thì giờ đây, lượng khán giả tiềm năng đã tăng hơn 8 lần - nhờ khoảng 1,5 tỷ người nói tiếng Anh.
Các nhân vật mới cũng đã xuất hiện trên nền tảng: bây giờ bạn có thể tạo video với ba hình đại diện thực tế (Elena, Peter và Eva) và ba hình động - (Matilda, Vee và Kira). Các hình ảnh và trang phục khác nhau đều có sẵn cho họ, 4 giọng nữ và 2 nam cho lồng tiếng Nga và 5 giọng nữ và nam cho tiếng Anh. Bạn có thể tải lên bản ghi âm của riêng mình - và sau đó biểu cảm khuôn mặt của nhân vật sẽ thích ứng với nó. Bài phát biểu của mỗi hình đại diện có thể được đánh dấu theo quốc gia: đặt các khoảng dừng và dấu trọng âm, đi kèm với cử chỉ, thêm nhạc và nền. Bạn có thể lấy bất kỳ bản trình bày nào làm cơ sở cho video, cũng như tạo hoạt ảnh cho ảnh của riêng bạn và chèn nó vào video.
Visper cho phép các nhà sản xuất nội dung và nhà phát triển sản phẩm thông tin tạo ra nội dung chất lượng nhanh hơn, rẻ hơn và thử nghiệm với các định dạng. Với nền tảng này, bạn có thể nhanh chóng tạo video sáng tạo mà không cần quay phim tốn kém và mất thời gian, tạo hoạt ảnh cho nội dung văn bản bằng video, nhanh chóng nhận tài liệu trực quan để thay đổi động nội dung (tin tức, thông báo) và cá nhân hóa giao tiếp.
Mỗi tháng, bất kỳ ai cũng có thể tạo hai phút video miễn phí. Cả thanh toán theo phút và đăng ký đều có sẵn và mức giá cho doanh nghiệp - và cá nhân dựa trên các chi tiết cụ thể của hoạt động.
David Rafalovsky , phó chủ tịch điều hành của Sberbank, CTO của Sber, người đứng đầu khối Technologies, cho biết: “Nền tảng này đã được ra mắt chỉ sáu tháng trước và nó đã có sẵn cho người dùng trên khắp thế giới. Hiện tại, dịch vụ được sử dụng bởi 17 nghìn người, những người tạo video có nhân vật của chúng tôi hàng ngày, mỗi nhân vật trong số đó là duy nhất và phù hợp với khán giả và mục đích khác nhau. Việc tạo ra một giao diện bằng tiếng Anh đã trở thành một sự tiếp nối hợp lý trong quá trình phát triển của dự án. Điều này sẽ cho phép chúng tôi thu hút khán giả quốc tế và giới thiệu với thế giới về sự phát triển của chúng tôi. "
Sberbank presented the English version of the platform of visual characters Visper
«Сбер» представил англоязычную версию платформы визуальных персонажей Visper
«Сбер» представил англоязычную версию платформы визуальных персонажей Visper
Создавать визуальный контент с её помощью теперь могут пользователи по всему миру
www.cnews.ru
Sberbank showed the English-language version of the platform of visual characters Visper
Сбер показал англоязычную версию платформы визуальных персонажей Visper
Сбер показал англоязычную версию платформы визуальных персонажей Visper
Платформа Visper, которая позволяет генерировать видеоролики с фотореалистичными и анимационными персонажами, стала доступна на английском языке. Премьера англоязычной версии платформы состоялась на одной из ключевых международных технологических конференций — Web Summit 2021, проходящей с 1 по...
lenta.ru
PS:
Hoá ra bọn Sher cũng làm ô tô tự lái bác evoque2012 ạ
SberAutoTech
СберАвтоТех — технологическая компания, которая создает транспорт будущего: беспилотный, безопасный и комфортный
sberautotech.ru
Chỉnh sửa cuối: