[Funland] Chào mừng DeepSeek R1!

koala2023

Xe buýt
Biển số
OF-830771
Ngày cấp bằng
16/3/23
Số km
611
Động cơ
27,524 Mã lực
Tuổi
40
Cụ cứ stop các search engine xem rồi nó ra sao rồi chém tiếp ạ.Các AI lấy dữ liệu ở đâu. Xin lỗi chứ máy học với máy hành gì cụ. Ko có dữ liệu thì khóc thét.
Cụ cứ làm như nó dốt như cụ ý mà cần Google (hay các SE khác) để lấy data 😆😆😆😆. Data nó có sẵn trên Internet thưa cụ, Google nó giúp cụ tìm kiếm nhanh thông tin cụ cần thôi. Ko có google thì vẫn truy cập data như thường!!!!
 

firstXpan

Xe buýt
Biển số
OF-813757
Ngày cấp bằng
7/6/22
Số km
915
Động cơ
203,494 Mã lực
Cụ lấy ví dụ nực cười, ai có thể stop các SE cho cụ xem được?

Data của các SE cũng từ crawl các trang web mà có, các công ty AI chẳng lẽ nó không biết crawl về chắc?
Nó biết nhưng nó crawl ko tối ưu và ko nhanh bằng thằng cha đẻ của nó là gg search. Vì sao gg search vẫn bá đạo thế giới, trong khi nước ta cũng đẻ ra nhiều công cụ seach như cốc cốc đó.Và vì thế khi động đến search hay dữ liệu thì tội gì ko sử dụng sẵn mấy ông đã có như gg search làm đầu vào.Cũng giống như cụ sx eto thôi, cụ có đi từ luyện kim ốc vít rồi chip chiếc ko, hay cụ dùng những thứ có sẵn.
 

firstXpan

Xe buýt
Biển số
OF-813757
Ngày cấp bằng
7/6/22
Số km
915
Động cơ
203,494 Mã lực
Cụ cứ làm như nó dốt như cụ ý mà cần Google (hay các SE khác) để lấy data 😆😆😆😆. Data nó có sẵn trên Internet thưa cụ, Google nó giúp cụ tìm kiếm nhanh thông tin cụ cần thôi. Ko có google thì vẫn truy cập data như thường!!!!
Mời cụ đọc tiếp còm dưới
 

langtoilangtoi

Xe điện
Biển số
OF-520012
Ngày cấp bằng
6/7/17
Số km
3,933
Động cơ
72,128 Mã lực
Tuổi
48
Cụ chém lung tung quá.

DS, ChatGPT hay các mô hình AI hiện nay khác hoàn toàn search engine (SE), nó cũng chả phụ thuộc SE nào cả. Cái giống nhau với SE có chăng là nó cùng lấy data từ các trang web trên internet thôi, thông qua các công cụ crawling.

DS hay ChatGPT có thể dùng model tương tự nhau nhưng chi tiết triển khai có thể dẫn đến kết quả khác nhau xa. Cái model chung thì search open source thì ra đầy chứ có gì bí mật đâu.

Với các hệ thống AI thì ngoài model còn có một phần rất khó và tốn kém nữa là đào tạo (training). Bước này có thể rút ngắn đi nhiều nếu biết "học hỏi" từ các mô hình sẵn có, người ta đang nghi ngờ DS ở chính bước này, có thể DS đã học hỏi ít nhiều từ OpenAI. Tất nhiên việc học hỏi nhau là bình thường, vấn đề là "học hỏi" đến mức nào thì mới bị coi là vi phạm bản quyền. Nói chung trong kỹ thuật học hỏi nhau là phổ biến và bắt buộc nhưng đâu có dễ thế, đến sản phẩm đóng gói sờ sờ ra như ô tô, điện thoại mà còn đâu có dễ bắt chước chất lượng của nhau huống chi là cái sản phẩm chỉ dùng trên web, chỉ được xem kết quả chứ có lôi về chạy đâu mà copy được.
Chính xác cụ. Tuy nhiên chỗ model của cụ hơi rối tí. Model là kết quả của training, nó đc coi như kiến thức của AI. Mỹ cũng đang điều tra xem Deepseek có dùng cạc Nvidia bị cấm xuất chp TQ để training ko.
Training là khâu tốn kém nhất vì nó phải đảm bảo độ chính xác mong muốn và dữ liệu chuẩn khóa khổng lồ.
 

koala2023

Xe buýt
Biển số
OF-830771
Ngày cấp bằng
16/3/23
Số km
611
Động cơ
27,524 Mã lực
Tuổi
40
Nó biết nhưng nó crawl ko tối ưu và ko nhanh bằng thằng cha đẻ của nó là gg search. Vì sao gg search vẫn bá đạo thế giới, trong khi nước ta cũng đẻ ra nhiều công cụ seach như cốc cốc đó.Và vì thế khi động đến search hay dữ liệu thì tội gì ko sử dụng sẵn mấy ông đã có như gg search làm đầu vào.Cũng giống như cụ sx eto thôi, cụ có đi từ luyện kim ốc vít rồi chip chiếc ko, hay cụ dùng những thứ có sẵn.
Cụ đừng luyên thuyên chống chế vớ vẩn nữa đi. Theo ý cụ ban đầu thì là google cấm DS thì DS chết, nhưng em khẳng định là DS ko chết vì nó tự crawl data được mà ko cần dùng google crawling API!!!
 

XSim

Xe container
Biển số
OF-698009
Ngày cấp bằng
8/9/19
Số km
9,759
Động cơ
883,578 Mã lực
Chính xác cụ. Tuy nhiên chỗ model của cụ hơi rối tí. Model là kết quả của training, nó đc coi như kiến thức của AI. Mỹ cũng đang điều tra xem Deepseek có dùng cạc Nvidia bị cấm xuất chp TQ để training ko.
Training là khâu tốn kém nhất vì nó phải đảm bảo độ chính xác mong muốn và dữ liệu chuẩn khóa khổng lồ.
Hiểu nôm na là model là thuật toán, là kiến trúc tư duy của AI, có thể là một neural network đơn giản hay một deep neural network hay một LLM gì đó, đại khái thế.

Còn kiến thức là các weights được tính ra sau khi training model trên một tập dữ liệu.

Cơ bản thì model có thể na ná nhau, dữ liệu đều là public cũng như nhau nhưng mỗi công ty lại có rất nhiều bí quyết nhỏ trong việc tối ưu model lẫn quá trình training.

Việc DS có dùng chip NVIDIA bị cấm không thì chắc chả quan trọng lắm, không chạy ở TQ thì DS có thể chạy nhờ cloud của đối tác bên Mỹ để train cũng được mà. Giờ nó train xong rồi mới đi tìm xem nó có dùng data hay chip cấm không thì cũng giống như gặp thằng giỏi quá không thắng được nên đi điều tra xem nó có đọc sách lậu không mà giỏi thế :))
 
Chỉnh sửa cuối:

XSim

Xe container
Biển số
OF-698009
Ngày cấp bằng
8/9/19
Số km
9,759
Động cơ
883,578 Mã lực
Nó biết nhưng nó crawl ko tối ưu và ko nhanh bằng thằng cha đẻ của nó là gg search. Vì sao gg search vẫn bá đạo thế giới, trong khi nước ta cũng đẻ ra nhiều công cụ seach như cốc cốc đó.Và vì thế khi động đến search hay dữ liệu thì tội gì ko sử dụng sẵn mấy ông đã có như gg search làm đầu vào.Cũng giống như cụ sx eto thôi, cụ có đi từ luyện kim ốc vít rồi chip chiếc ko, hay cụ dùng những thứ có sẵn.
Thế gg nó cho các cty AI mượn data của nó để train hay cho mượn công cụ để crawl web à?
 

404

Đi bộ
Biển số
OF-342784
Ngày cấp bằng
14/11/14
Số km
1
Động cơ
272,304 Mã lực
Em thấy người ta dùng nó để code hay giải toán chẳng hạn (2 món này thì AI là trùm), ví dụ em có cái đề toán lớp 12 như sau:
ds.png

Em lấy tấm hình đó send lên cho DS và nói nó giải toán, sau 1 hồi giải thích từ A tới Z các thứ, nó sẽ tóm tắt cho em câu trả lời.
ds2.png
Sai r bác ơi. Khoảng đồng biến, nghịch biến bị sai, khả năng do nó nhầm -2 thành 2
 
Thông tin thớt
Đang tải

Bài viết mới

Top