What we learned from 5 million books
Azok számára, akik valaha is kíváncsiak voltak, hogy hány különböző könyv létezik a világon, a Google a választ a számodra: 129 864 880 szerint Leonid Taycher, egy Google szoftverfejlesztő, aki a Google Könyvek projektjén dolgozik.
a könyvek világszerte több, mint a kereső óriás kíváncsiságának gyakorlata: egyúttal tervet ad arra is, hogy néhány munkát még meg kell tenni a vállalat világméretű információinak megszervezésére irányuló ambiciózus cél elérése érdekében.
" Ön egy olyan cég részévé válik, amely megpróbálja digitalizálni a világ összes könyveit, az első kérdés, amellyel gyakran megkapja: "Hány könyv van ott?", Taycher elmagyarázta a becslést bejelentő blogbejegyzést.
[További olvasmány: A legjobb TV streaming szolgáltatások]Ésszerű közelítéssel a könyvtár többféle katalogizáló rendszerrel, például a nemzetközi szabványkönyvszámmal (ISBN) kapcsolatos könyvinformációkat kezdte el.
Ezek a katalógusok, bár hasznosak, nem adnak végleges számolást, azonban. Például az 1960-as évek óta csak ISBN-okat rendelnek könyvekhez, és általában csak a nyugati országokban használatosak.
Az ISBN-számokhoz több könyvet is hozzárendeltek, és a kiadó ISBN-okat más könyvekhez, mint például a pólók és a DVD-k.
Így a Google mérnökei olyan programokat írták meg, amelyek fésülködnek mintegy 150 ilyen katalóguson és könyvtáron, és megszüntetik a sok ismételt bejegyzést, amennyit megtaláltak.
kemény döntéseket arról, hogy mi az, ami nem könyvet jelent, magyarázta Taycher.
Például, a szöveg puha borítója és kemény borító kiadása két könyvnek számít, mint például egy népszerű szöveg sok változatának, például Shakespeare "Hamlet", mert az előszavak és kommentárok tartalmazhatnak. A szériák egyéni könyvekként vagy összegyűjtött munkákként számolhatnak.
Júniusról a cég 12 millió könyvet szkennel le a Google Books mérnöki menedzser Jon Orwant által a Bostonban megrendezett USENIX éves szakmai konferenciáján. Ezek a könyvek körülbelül 480 nyelven készültek (beleértve a 3 kötetet a Star Trek-eredetű klingon nyelvben).
A cég egy évtizeden belül tervezi befejezni a meglévő könyvek beolvasását. Az így létrejövő virtuális gyűjtemény négy milliárd oldalról és két trillió szóból áll, mondta Orwant.
A világ könyvének mintegy 20 százaléka nyilvános, Orwant elmagyarázta. E könyvek mintegy 10-15 százaléka nyomtatott. A fennmaradó könyvek - a címek túlnyomó többsége - még mindig szerzői jogvédelem alatt állnak, de nem nyomtatják ki. A Google a könyvek másolatainak kölcsönzését végzi annak érdekében, hogy digitalizálják őket, körülbelül 40 nagy könyvtárból világszerte.
Ez a beolvasás olyan könyvekben történik, amelyek kifogytak a nyomtatásban, de még mindig a szerzői jogi védelem alatt állnak némi ellenállással a kiadóipar számára.
A cég jelenleg vár a New York-i déli kerületben az Egyesült Államok Kerületi Bíróságától arra vonatkozóan, hogy képes-e beolvasni ezeket a könyveket.
2005-ben a szerzők céh és az Amerikai Kiadók Szövetsége külön keresetet nyújtott be a keresési óriás ellen, azzal érvelve, hogy a vállalat a szerzői szerzői jogok megsértésével szkennel a könyvekben.
A Google azt állította, hogy eladni szeretné ezeket az egyébként out-of- nyomtatott könyveket, és helyezze el a jogdíjakat a szerzők számára. A vállalat azt reméli, hogy felfedezi e könyvek részleteit a webes keresések során, és azt állítja, hogy ez a felhasználás az Egyesült Államok Fair Use tankönyve alá tartozik.
A világ összes könyvének szkennelése más előnyöket eredményez a keresések javítása mellett, magyarázta Orwant. Miután ezeket a köteteket digitalizálják, tartalmukat elemzésnek vethetik alá, ami új betekintést eredményezhet. A nyelvészek felfedezhetik, hogy bizonyos szavak széles körben elterjedtek-e, vagy akik először használják ezeket a szavakat.
A Google Könyvkereső is segíthet néhány kiemelkedő történelmi kérdés megválaszolásában: Például tudná tájékoztatni a vitát arról, vajon Isaac Newton és Gottfried Leibniz - vagy valaki más teljesen kitalált kalkulust.
"Nemcsak egy de egy fogalomhoz "- magyarázta Orwant. "Bármely különböző módon [képesek] a végtelenséget elképzelni, fordítani ezt különböző nyelvekre és párhuzamosan végezni." "Remélem, hogy amikor sokkal többet próbálunk kiragadni, ez a gyűjtemény lehetővé teszi az emberek számára, hogy olyan kérdéseket tegyenek fel, amiket eddig még nem tudtak kérdezni. "
Juan Carlos Perez IDG News Service szerkesztője hozzájárult ehhez a jelentéshez.
Joab Jackson a vállalati szoftvereket és az általános technológiai hírek a
Az IDG News Service számára. Kövesse Joabot a Twitteren a @Joab_Jackson-on. Joab e-mail címe [email protected]
, A Microsoft csütörtökön megerősítette, hogy a felmérést, amelynek screenshotjait közzétették az Engadget blogon, néhány felhasználónak elküldték. A vállalat nem kommentálná kifejezetten a felmérést, csupán azt állítva, hogy a Microsoft "rutinszerűen kutat a különböző forgatókönyvekről, hogy megnézze, mi az ügyfelek érdeklődése a számítógépeik megszerzéséhez."
A Microsoft azt mondta, hogy "túl korai" az Instant On konkrét megvitatása. Azonban a vállalat a Windows 7 operációs rendszer következő verzióját fogja figyelembe venni, amely várhatóan jövő év vége vagy 2010 elején várható.
Az új Amazon Kindle e-könyv olvasó várakozása nem szórakoztató. De ha már van egy Apple iPhone vagy egy T-Mobile G1 a zsebében, több mint 1,5 millió könyvet talál a keze ügyében. A Google Book Search projekt, amelyet a bevezetése óta vitathatott, tegnap elindította a teljes könyvgyűjteményének mobil kiadásait.
A Google az optikai karakterfelismerő (OCR) technológiát alkalmazta a beolvasott könyvek oldalainak képernyőbarát szövegévé konvertálása az iPhone és a G1 készülékek számára. A Google Mobil Könyvkereső eléréséhez mutasson a mobiltelefon-böngésződre http://books.google.com/m.
Egyrészt az élet egyre könnyebbé válik a különböző online portálok és felhő tároló platformok számára, amelyek eléggé ígéretesnek tűnnek, amennyiben a fájlokhoz való könnyű hozzáférés érintett. De másfelől tényleg időbe telik, amikor különböző fájlokat kell kezelnie különböző platformokon, emlékeznie kell a jelszavakra és kezelnie kell a fájlokat tíz különböző formátummal. Mi lenne, ha lenne olyan szoftver, amely lehetővé tette, hogy szinkronizálja az összes ilyen fájlformátumot, egyetlen platfo
F-Secure Younited