HTML

Opteamus a blog

Kathryn és Greg! blogol a szoftverről, amit csinálnak. Neked.

Feedek

Nemdokumentált Google fejlesztések?

2008.02.10. 19:53 Greg!

Imádom a bemutatónknak azt a részét, amikor beírom az Opteamus (CRM és csapatmunka rendszerünk) gyorskeresőjébe, hogy "kala pál para zita" és a keresés válaszképpen visszaigazolja, hogy Kala Pál és Para Zita személyekre kerestünk, majd kidobja azt a cetlit, amin ez áll: "Kala Palit láttam Para Zitával tegnap a moziban. Szerintem ez már szerelem..." Ilyenkor büszkén kihúzom magam és azt mondom: na EZ AZ, amit nemhogy semmilyen CRM vagy ERP rendszer, de sem a Google, sem a Windows search, se az Oracle ultrasearch nem tud utánunk csinálni. Nem csak hogy a magyar ragozás szerint torzult (Zita Zitával) alakokat találtuk meg, de a szinonímákat (Pál Pali) is figyelembe vettük. Meglehet, nem sokáig lehet ekkora mellényünk, mert a Google - ahogy ez várható is volt - folyamatosan erősít ezen a területen is.

Először azt vettem észre, hogy az angol többesszámot is felismeri, amikor a nurse keresőszóra a nurses többesszámú alakok is megjelentek a találatok között. Mostanra szemmel láthatóan nem csak angol nyelven és nem csak a többesszám felismerése megy, hanem úgy tűnik, hogy minden nemzeti nyelven kitűzött cél a ragozott alakok felismerése. A katona szócskára keresve már előjönnek a katonák és katonai találatok (bár más ragozott alakot egyelőre még nem látok). Azügyben persze van kis kavarodás, hogy a google.com vagy a google.hu irányából indítom-e a keresést. A google.hu-n indított nővérke keresés megtalálja a nővérkék többesszámot, sőt, képkereső üzemmódban még azt is javasolja, hogy keressek rá az angol nurse alakra. A google.com irányából viszont jól láthatóan hasonló se történik: még a garantáltan magyar szavakról sem ismeri fel, hogy azok. Szóval úgy fest, jelen pillanatban csak az aktuális google domain szerinti nemzeti nyelvre koncentrálnak a keresések, amiknek néha felhasználják az angol megfelelőjét is. Ámulatba egyébként akkor estem csak igazán, amikor a minap a Петр Великий névre kerestem rá, és a Петра Великого alak is ott virította találatok között!

Szóval keresésben eddig sem volt könnyű ellenfél a Google, de egyelőre nem aggódom, hogy elvenné a kenyerünket. Annál is inkább nem, mert a Google keresése jelen pillanatban csupán szövegekre korlátozódik. A Петр Великий keresésre válaszul nem mondja meg, hogy ez a balti flotta hírhedt kirov osztályú nukleáris cirkálója (ami állítólag a Kurszkot is elsüllyesztette), "csupán" olyan dokumentumokat ad találatképpen, amelyeknek a szövegében szerepel a hajó neve. A Google nem tud semmit azokról a dolgokról, amelyekre keresünk (szemben pl. az erre kihegyezett Wikipédiával). Az élet persze itt sem áll meg, a Google sem vak, és szép lassan kiegészíti az adatbázisát bizonyos fontosabb entitások nevével és adataival, keressünk csak rá mondjuk Fatboy Slim nevére - és tessék, a Google már tudja róla, hogy kicsoda és milyen lemezeket adott ki! A mi Opteamusunk ha nem is világméretekben, de a vállalati adatbázison belül mindezeket értelemszerűen tudja, bármilyen termékünk, ismerősünk, projektünk, vagy cég nevére keresve a keresett dolog adatlapját és a rá vonatkozó minden anyagot is megmutatja. Álljuk a sarat!

4 komment

Címkék: keresés crm oracle dokumenedzsment

A bejegyzés trackback címe:

http://opteamus.blog.hu/api/trackback/id/tr95333994

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

Gál Kristóf · http://www.adwords-hirdetes.hu 2008.02.11. 21:39:29

Jó post, de pár dologba belekötök. :)

A ragozott formák felismerése jónéhány hónapja elérhető Magyarországon is, angol verzióban pedig már elég régen!

(Tudomásom szerint) azért az Opteamus sem "alapból" ismeri fel a Pál - Pali, Kristóf - Kristófdrágám, Barcelona - Barca, stb. megfeleltetést, hanem "csak" akkor, ha megadtad szinonímának, nem? Ez a Google beelőzés szerintem így picit féligazság jellegű. :)

Mindezektől függetlenül persze szeretem és bátran ajánlom az Opteamust! ;)

Greg! · http://opteamus.blog.hu 2008.02.12. 12:26:29

Igen igen, nálunk a felhasználó adja a szinonímaszótárat, hiszen mi alapvetően csoportmunka szoftver lennénk, és igyekszünk minél inkább alkalmazkodni a csoportjaink habitusához, beleértve az ő saját elnevezéseiket is. A google feladata nyilván nem ez, hanem az egyértelműen globális szinonímák kezelése lenne.

Amúgy volt a cikkben egy ennél magasabb labda is, amit leüthettél volna: konrétan az, hogy Nagy Péter nem egyértelműen egy atomcirkáló, hanem eredendően a cár személyneve! Azonos nevet visel sajnos több különböző dolog - és a homonímákkal való megbírkózás sokkal nehezebb feladat, mint a szinonímák kezelése. Mi magunk is megszenvedtünk vele, de egész jó eredményre sikerült jutnunk. Esetleg ez is megérne egy önálló posztot később...

wannabee 2008.03.27. 20:46:04

két gondolat:

1. gugli szörcs
Személyes (nem ellenőrzött) tapasztalatom az, hogy ha egy alap szóra keresel rá, akkor csak és kizárólag az alap szóra fog keresni, viszont ha bármilyen az alaptól eltérő formájára keresel egy szónak, akkor az összes (hogy vmilyen rendszer szerint-e vagy sem passz) formáját megtalálja, azaz:

keresés: nővér -> találat: nővér
keresés: nővérnek -> találat: nővérnek, nővér, nővértől, nővérhez, nővéreknek....stb

ebből nekem az következik, hogy tudnak a toldalékokról, ragokról, jelekről, de hogy ez mit jelent, arról fogalmuk sincs, akárcsak arról sem, hogy akkor mit is keresünk tulajdonképpen.

Ráadásul mondhatjuk, hogy ez egy ordenáré hiba is -> ha én a "kézikönyv" és "nővéreknek" szavakra keresek, akkor legyen szíves és ugyan ne hozza már nekem a nővér összes lehetséges variációját.

...ezt lehet, h már írtam, vagy mondtam, ha igen bocsi.

2.
"A magyar nyelv egy különleges nyelvtípusba, az úgynevezett tisztán agglutináló nyelvekhez tartozik. A miénken kívül csupán három másik ilyen nyelv ismeretes - a török, a finn és a japán.
E nyelvek sajátossága, hogy a szavak toldalékolása a szavak tövéhez, illetve alapalakjához illesztett ragok, képzők és jelek segítségével történik"

+hasonulás+stbstb.

Én azt gondolom messze van még az az idő, hogy a gugli erre a fejlesztésre (főleg a hatalmas magyar piac reményében) áldozna - nem is értik, hogy miről van szó.

Az már egy másik dolog, hogy úgy néz ki a magyarok sem foglalkoznak vele... talán mert eddig sem volt, hozzászoktak, nem hiányzik.
Pedig...

uff :)

wannabee 2008.04.24. 10:22:44

..még egy tétel arra, hogy a google nem (sem) tud magyarul, illetve, hogy ők is csak a "homályosban tapogatnak":
Keresett szó: szűrő
Megtalált szó: szúrok

ez egy külföldi által kitalált módszertani hibát "sejtet" :)