Car-tech

Google: 129 triệu cuốn sách khác nhau đã được xuất bản

Iran sa thải bộ trưởng sau khi chịu lệnh trừng phạt từ Mỹ

Iran sa thải bộ trưởng sau khi chịu lệnh trừng phạt từ Mỹ
Anonim

Đối với những người từng tự hỏi có bao nhiêu sách khác nhau trên thế giới, Google có câu trả lời cho bạn: 129,864,880, theo Leonid Taycher, kỹ sư phần mềm của Google làm việc trong dự án Google Sách. các cuốn sách trên thế giới không chỉ là một bài tập về sự tò mò cho người khổng lồ tìm kiếm: Nó còn cung cấp lộ trình của một số công việc còn lại để đáp ứng mục tiêu đầy tham vọng của công ty về tổ chức tất cả thông tin của thế giới.

bạn là một phần của một công ty đang cố gắng số hóa tất cả các sách trên thế giới, câu hỏi đầu tiên bạn thường nhận được là: 'Có bao nhiêu cuốn sách ở ngoài đó?', "Taycher giải thích trong một bài đăng trên blog công bố ước tính. > [Đọc thêm: Các dịch vụ truyền hình trực tuyến tốt nhất]

Để đưa ra một xấp xỉ hợp lý, công ty bắt đầu bằng cách nhập thông tin sách từ nhiều hệ thống danh mục, chẳng hạn như Số sách chuẩn quốc tế (ISBN).

Danh mục như vậy, trong khi hữu ích, không cung cấp số đếm chính xác, Tuy nhiên. Ví dụ: ISBN chỉ được gán cho sách từ những năm 1960 và chỉ có xu hướng được sử dụng ở các quốc gia phương Tây.

Ngoài ra nhiều sách đã được gán cho các số ISBN riêng lẻ và nhà xuất bản đã chỉ định ISBN cho các mục khác ngoài sách, chẳng hạn như áo phông và DVD.

Vì vậy, các kỹ sư của Google đã viết các chương trình để chải khoảng 150 danh mục và thư mục như vậy và loại bỏ nhiều mục trùng lặp có thể tìm thấy.

Công ty cũng phải thực hiện một số Quyết định khó khăn về những gì là và không phải là một cuốn sách, Taycher giải thích.

Ví dụ, bìa mềm và bìa cứng của một văn bản được tính là hai cuốn sách, như là nhiều phiên bản khác nhau của một văn bản phổ biến, chẳng hạn như Shakespeare của "Hamlet", do các tiền đề và bình luận họ có thể chứa. Vào tháng 6, công ty đã quét 12 triệu cuốn sách, theo một bài thuyết trình được đưa ra bởi giám đốc kỹ thuật của Google Books Jon Orwant tại Hội nghị kỹ thuật thường niên USENIX ở Boston. Những cuốn sách này đã được viết bằng khoảng 480 ngôn ngữ (bao gồm 3 cuốn sách bằng ngôn ngữ Klingon có nguồn gốc từ Star Trek).

Công ty có kế hoạch hoàn thành việc quét các cuốn sách hiện có trong một thập kỷ. Bộ sưu tập ảo thu được sẽ bao gồm bốn tỷ trang và hai nghìn tỷ từ, Orwant cho biết.

Khoảng 20 phần trăm sách thế giới thuộc phạm vi công cộng, Orwant giải thích. Khoảng 10 đến 15 phần trăm của những cuốn sách này được in. Những cuốn sách còn lại - đại đa số tất cả các đầu sách - vẫn thuộc bản quyền nhưng không được in ra. Google đang trong quá trình mượn các bản sao của những cuốn sách này để số hoá chúng, từ khoảng 40 thư viện lớn trên toàn thế giới.

Đây là hành động quét trong những cuốn sách không có bản in nhưng vẫn được bảo vệ bởi bản quyền đã được đáp ứng với một số kháng cự của ngành công nghiệp xuất bản.

Công ty hiện đang chờ phán quyết từ Tòa án quận Hoa Kỳ cho Quận Nam New York, về việc liệu nó có thể quét những cuốn sách này hay không.

Năm 2005, Authors Guild và Hiệp hội các nhà xuất bản Mỹ đã đệ đơn kiện riêng từng vụ kiện chống lại gã khổng lồ tìm kiếm, khẳng định rằng công ty đang vi phạm bản quyền tác giả bằng cách quét sách.

Google tuyên bố muốn bán bản sao kỹ thuật số của những in sách, và dành một số tiền bản quyền cho các tác giả để yêu sách. Công ty cũng hy vọng tiết lộ các đoạn của những cuốn sách này trong các tìm kiếm trên Web và tuyên bố việc sử dụng này nằm trong học thuyết sử dụng hợp pháp của Hoa Kỳ.

Việc quét tất cả các sách trên thế giới sẽ dẫn đến những lợi ích khác ngoài việc cải thiện tìm kiếm. Khi tất cả các khối lượng này được số hóa, nội dung của chúng có thể được phân tích, điều này có thể dẫn đến những hiểu biết mới. Các nhà ngôn ngữ học có thể khám phá khi một số từ nhất định được sử dụng rộng rãi, hoặc những người đầu tiên bắt đầu sử dụng những từ này.Tìm kiếm Sách của Google cũng có thể giúp trả lời một số câu hỏi lịch sử nổi bật: Ví dụ, nó có thể thông báo cho cuộc tranh luận về việc liệu Isaac Newton và Gottfried Leibniz - hay một người khác hoàn toàn - đã phát minh ra phép tính.

"Chúng ta có thể tìm kiếm không chỉ cho một nhưng đối với một khái niệm, "Orwant giải thích. "Chúng tôi có thể lấy tất cả các cách khác nhau [ý tưởng về] vô cùng có thể bị thổi phồng, dịch sang các ngôn ngữ khác nhau và thực hiện tìm kiếm song song."

"Tôi hy vọng là khi chúng ta bắt đầu phơi bày nhiều hơn bộ sưu tập này, nó sẽ cho phép mọi người hỏi những câu hỏi như thế này mà họ chưa từng hỏi trước đây ", ông nói.

Biên tập viên của IDG News Service Juan Carlos Perez đóng góp cho báo cáo này.

Joab Jackson bao gồm phần mềm doanh nghiệp và tin tức công nghệ chung cho

Dịch vụ Tin tức IDG

. Theo dõi Joab trên Twitter tại @Joab_Jackson. Địa chỉ email của Joab là [email protected]