2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... ·...

34
Textdatenbanken Sommersemester 2009 2. Vorlesung Uwe Quasthoff Universität Leipzig Institut für Informatik [email protected]

Transcript of 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... ·...

Page 1: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

Textdatenbanken

Sommersemester 20092. Vorlesung

Uwe Quasthoff

Universität LeipzigInstitut für Informatik

[email protected]

Page 2: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 2

Facts about the Leipzig Corpora CollectionHistory: Projekt Deutscher Wortschatz

• Collection of word lists since mid-90s

• 1996: Collection of sample sentences in a relational database

• 1998: Searchable via http://wortschatz.uni-leipzig.de, 3 Mio. sentences

• 2001: Starting the daily collection of newspapaer texts

• 2002: First collection of Web-text

• 2003: Larger German Corpus with 35 Mio. sentences

• 2004: Language Detection on sentence level

• 2005: WebServises

• 2006: Standard Size Corpora for 15 languages on DVD: and online at http://corpora.informatik.uni-leipzig.de/

Page 3: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 3

Text Collection 1

Method 1: Newspaper Text using AlltheWeb

• Predefined List of Newspapers

• Ordered by language

• Allows search „within pages indexed last 2 hours“

• Works fine for approx. 10 languages

Collection Results of Tuesday, 2006-09-12 (Raw text with noise of all kind)

• DE: 21.6 MB 23.000 sentences

• EN: 43.1 MB

• ES: 17.1 MB

• FR: 12.1 MB

• IT: 8.2 MB

• NL: 1.6 MB

• PT: 1.1 MB

Page 4: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 4

Text Collection 2http://newsisfree.com/sources/bylang

• Für DE und EN etwa halb so viele Daten wie von AlltheWeb.

• Aber: Mehr Sprachen, keinerlei Konfiguration nötig

• Täglich einmal komplett (ohne Wiederholungen von gestern) gecrawlt

Page 5: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 5

Text Collection 3: WikipediasWikipedias mit mehr als 1.000.000 Artikeln (1) Englisch (English) Wikipedias mit mehr als 500.000 Artikeln(2) Deutsch - Französisch (Français) Wikipedias mit mehr als 250.000 Artikeln(5) Italienisch (Italiano) - Japanisch (日本語 ) - Niederländisch (Nederlands) -

Polnisch (Polski) - Portugiesisch (Português)Wikipedias mit mehr als 100.000 Artikeln(6) Chinesisch (中文 ) - Finnisch (Suomi) - Norwegisch (Bokmål) - Russisch

(Русский) - Schwedisch (Svenska) - Spanisch (Español)Wikipedias mit mehr als 50.000 Artikeln(12) Dänisch (Dansk) - Esperanto (Esperanto) - Hebräisch (עברית Indonesisch - (

(Bahasa Indonesia) - Katalanisch (Català) - Lombardisch (Lumbaart) - Rumänisch (Română) - Slowakisch (Slovenčina) - Tschechisch (Česky) - Türkisch (Türkçe) - Ukrainisch (Українська) - Ungarisch (Magyar)

Page 6: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 6

Mehr Wikipedias

Wikipedias mit mehr als 25.000 Artikeln

(10) Arabisch (العربية Bulgarisch (Български) - Cebuano (Cebuano) - Estnisch - ((Eesti) - Koreanisch (한국어 ) - Kroatisch (Hrvatski) - Litauisch (Lietuvių) - Serbisch (Српски / Srpski) - Slowenisch (Slovenščina) - Telugu (తలగ)

Wikipedias mit mehr als 10.000 Artikeln

(25) Albanisch (Shqip) - Baskisch (Euskara) - Bengali (বাংলা) - Bishnupriya Manipuri ( ইমার ঠার/ িবষুিিয়া মিিপুরী) - Bosnisch (Bosanski) - Bretonisch (Brezhoneg) - Einfaches Englisch (Simple English) - Galicisch (Galego) - Georgisch ( ) - ქართულიGriechisch (Ελληνικά) - Hindi (ििनदी) - Ido (Ido) - Isländisch (Íslenska) - Javanisch (Basa Jawa) - Lateinisch (Latina) - Luxemburgisch (Lëtzebuergesch) - Malaiisch (Bahasa Melayu) - Neapolitanisch (Nnapulitano) - Nepal Bhasa ( नपेाल भाषा) - Norwegisch (Nynorsk) - Persisch (فارسی Serbokroatisch (Srpskohrvatski / - (Српскохрватски) - Sundanesisch (Basa Sunda) - Tamilisch (தமிழ்) - Thailändisch (ไทย) - Vietnamesisch (Tiếng Việt)

Page 7: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 7

Text Collection 4: Yahoo + Stopwords

Für eine Sprache wird wenige Seiten Text benötigt, um daraus die häufigsten Wörter zu extrahieren.

Verfahren: Aus den häufigsten 20 Wörtern werden jeweils 5 zufällig ausgewählt und an die Suchmaschine geschickt. Die zurückgelieferten Texte werden gesammelt.

Beispiel für Deutsch: der es für in durch

Obwohl in allein nicht nur in deutschen Texten vorkommt, sorgen die weiteren Wörter für Auswahl der korrekten Sprache.

Page 8: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 8

UDHR in UnicodeDie Allgemeine Erklärung der Menschenrechte der Vereinten Nationen liegt in über

320 Sprachen in Unicode vor.

Umfang (deutsch): 1700 Wörter

Page 9: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 9

Text Collection 5

Method 2: Random collection of Web text.

• Using Crawler FindLinks (originally designed to explore the link structure of the web), expanded by language detection.

• Text is stored locally at the client computer

• Crawling strategy:

– Crawling divided in rounds

– Each round is defined by a list of URLs and takes approx. one week

– Links detected in round n give the URLs for round n+1

– We allow only 3 URLs per domain

Page 10: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 10

Text sammeln mit FindLinks

Um mehr Text ein „exotischen“ Sprachen zu erhalten, wird FindLinks benutzt:

Die heruntergeladenen Seiten werden nach vorgegebenen Kriterien analysiert. Im positiven Falle wird Text extrahiert und heimgeschickt.

Momentan existieren:

• charset-Plugin: Auswahl entsprechend dem charset-Attribut im HTML-Header (für den Fall „exotischer“ Zeichen)

• Trigramm-Plugin (sucht nach neuen Sprachen mit lateinischen Buchstaben)

Page 11: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 11

Das FindLinks Charset-Plugin I

Der Text wird heimgeschickt, wenn der im Meta-Tag angegebene Zeichensatz aus einer vorgegeben Liste stammt: http://wortschatz.uni-leipzig.de/findlinks/charset.txt

armscii-8 Armenian

Big5 Chinese Traditional

Big5-HKSCS Chinese Traditional

cp1026 Turkish

cp1133 Lao

cp855 Cyrillic

cp857 Turkish

cp861 Icelandic

cp862 Hebrew

cp864 Arabic

cp865 Nordic

cp866 Cyrillic

...

EUC-JP Japanese

EUC-KR Korean

GB2312 Chinese Simplified

GBK Chinese Simplified

geostd8 Georgian

ISIRI3342 Iranian

ISO-2022-JP Japanese

iso-8859-1 Latin

ISO-8859-10 Nordic

ISO-8859-11 Thai

ISO-8859-13 Baltic

ISO-8859-14 Celtic

....

Shift_JIS Japanese

tscii Indian

utf-8 UTF-8

VISCII Vietnamese

windows-1250 Tschechisch

windows-1251 Cyrillic

windows-1253 Greek

windows-1254 Turkish

windows-1255 Hebrew

windows-1256 Arabic

windows-1257 Baltic

windows-1258 Vietnamese

Page 12: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 12

Das FindLinks Charset-Plugin II

Im Fall von Nicht-UTF-8 wird der eingehende Text nach UTF-8 konvertiert und entsprechend Sprache abgelegt.

Für UTF-8-Text wird die Unicode-Tabelle genutzt, um die Sprache zu ermitteln. Falls das eindeutig ist (z. B. für Sprachen mit exotischen Zeichen), wird der Text wieder entsprechend Sprache abgelegt.

Das Paket FindLinks + Charset-Plugin ist zum Download erhältlich:

http://www.asv.informatik.uni-leipzig.de/opencms/opencms/asv/de/Lehre/

Lehrveranstaltungen/Vorlesungen/2007/Text_Datenbanken.html

Page 13: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 13

ISO-8859-2 Polish <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://www.studentki.cv.podhale.pl/" charset="iso-8859-2"/>STUDENTKI\r\n\r\n\r\nStudentki\r\n\r\n\r\njeśli masz ochote na... zobacz to: studentki codziennie nowe zapraszamy na strone!\r\n\r\n\r\n\r\n Zaraz po ślubie wprowadziliśmy studentki się do teściów, niestety rzeczywistość STUDENTKI naszego kraju jest bezlitosna. W czteropokojowym bardzo ostry seks polski Tanie Polskie Kurwy mieszkaniu gnieĽdziliśmy się w piątkę. Oprócz teściów mieszkała z nami siostra żony. Miała 19 lat i była strasznie energiczną osobą. Życie płynęło nam niezbyt ciekawie, ciągłe studentki kłótnie i brak prywatności. Nic nie zapowiadało tego, co spotkało mnie pewnego sobotniego wieczoru. Otóż żona musiała wyjechać na szkolenie i zostałem sam w jaskini lwa. Kiedy wróciłem studentki do domu położyłem się w pokoju, który zajmowaliśmy i czytałem gazetę. Potem kręciłem się po mieszkaniu. Przez cały wieczór, kiedy szedłem czy to do łazienki czy też do kuchni w pobliżu przewijała się Marta, moja szwagierka. Przez cały czas studentki niby to przypadkiem ocierała się o mnie. To czułem jak przesuwa swoimi młodymi i niezwykle jędrnymi piersiami po moim torsie a to znów czułem jak jej tyłeczek ociera się o moje krocze. Wszystko to wyglądało studentki jakby sprawione przypadkiem. W zagraconym mieszkaniu i ciasnym przedpokoju nie było to takie niesamowite. ...

Page 14: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 14

windows-1251 Cyrillic <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://yug.mbm.ru/newsDetail.asp?site_id=24&part_id=125&module_id=210&news_id=3082" charset="windows-1251"/>Территориальное агентство по развитию предпринимательства Южного административного округа г. Москвы | Новости ТАРП\r\n\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\nТерриториальное агентство по развитию предпринимательства Южного административного округа г. Москвы\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n О ТАРП \r\n \r\n Новости ТАРП \r\n \r\n Как связаться \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\nК списку новостей\r\n 18.12.2002 В период с 18 по 20 декабря была проведена выставка предприятий промышленности и малого бизнеса Южного округа\r\n\r\n\r\n \r\n \r\n\r\n\r\n Своеобразным подведением итогов уходящего года стала выставка предприятий промышленности и малого бизнеса Южного округа, которая была торжественно открыта 18 декабря 2002 года в Большом зале Дворца культуры автозавода имени И.А.Лихачева. В церемонии торжественного открытия выставки приняли участие член Правительства Москвы, префект П.П.Бирюков, первый заместитель руководителя Департамента поддержки и развития малого предпринимательства Правительства Москвы В.К.Крышталев, председатель общественной организации промышленников и предпринимателей Южного округа В.М.Тимощенко, заместители префекта, главы районных Управ и руководители окружных служб.\r\n ...

Page 15: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 15

windows-1253 Greek <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://www.cinemanews.gr/v4/berlin2007/intro.php" charset="windows-1253"/>..:: ΑΦΙΕΡΩΜΑ: 57o ΦΕΣΤΙΒΑΛ ΚΙΝΗΜΑΤΟΓΡΑΦΟΥ ΒΕΡΟΛΙΝΟΥ - CinemaNews.gr v4.0 ::..\r\n\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n2007: Το Πρόγραμμα \r\n \r\n \r\nΤο μυστικό μαθεύτηκε και η ανυπομονησία μεγαλώνει: Ο Πρόεδρος του Φεστιβάλ Dieter Kosslick μαζί με τους επικεφαλής των διαφόρων τμημάτων παρουσίασαν το επίσημο πρόγραμμα του 57ου Διεθνούς Φεστιβάλ Κινηματογράφου Βερολίνου. Μόλις μία εβδομάδα πριν την έναρξη του φεστιβάλ, η αντίστροφη μέτρηση έχει ξεκινήσει για ένα από τα δημοφιλέστερα κινηματογραφικά events του πλανήτη. Στις 6 Φεβρουαρίου ξεκινάνε επίσημα οι πωλήσεις εισιτηρίων για τις 373 ταινίες που θα προβληθούν φέτος. Δύο ημέρες μετά, στις 8 Φεβρουαρίου, το Φεστιβάλ ανοίγει επισήμως τις πόρτες του με την παγκόσμια πρεμιέρα της ταινίας «La Vie En Rose», που αφηγείται την ταραχώδη ζωή της Edith Piaf, με πρωταγωνιστές τη Marion Cotillard και τον Gerard Depardieu. \r\nΣτο Διαγωνιστικό τμήμα του Φεστιβάλ θα κάνουν πρεμιέρα αρκετές πολυαναμενόμενες ταινίες του 2007, όπως ο «Good Shepherd» του Robert de Niro, με πρωταγωνιστές τους Matt Damon και Angelina Jolie αλλά κι ο ομόηχος «Good German», του Stephen Sonderberg. ...

Page 16: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 16

EUC-JP Japanese <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://doggiestyle.sakura.ne.jp/nicky200511.html" charset="euc-jp"/>DOGGIE NOTE\r\n\r\n\r\n ■日記 2005年 11月 29 日(火)  DLsiteさんが本日 9時よりお

休み \r\n リニューアルオープン予定日 \r\n12月 1日午後だそうです。 \r\n今回はヘベレケにならないことを期待しています。 \r\n色々 わって良くなるようです変が、 \r\n心配なのは見易さ(デザイン)でしょうか? \r\n\r\n \r\n ■2005年 11月 27

日(日)  さらにデジぱれさんから \r\n \r\n英語版と DMMさんではそれなりに売れてるみたいです。 \r\n …デジケットさんは苦 中戦 \r\nユーザー的に DLsiteさんと被ってそうなので、 \r\nこの結果でしょうか。 \r\nで、今日からデジぱれさんからも DL販売開始です。 \r\n200MBを超えるとアップロードがひと手間かかるのと、 \r\nたまにアップロードが失敗するのがちょっと。 \r\nこれでリアルタイム表示をしてくれるといいんだけどなぁ。 \r\n\r\n \r\n ■2005年 11月 18 日(金) DMM さんからも販売開始になりました \r\n 今回は前の作品に比べて登 申請か録ら登 まで早かったです。録 \r\n時期的なものとかもあるのでしょうけど。 \r\n新着紹介ページで紹介して頂いてます。ウレシ 。変 \r\n長く売れてくれる作品になるといいなぁ。 \r\n\r\n \r\n ■2005年 11月 17 日(木)  DLsite さんの英語サイト \r\n 昨日から「バーチャル姦具< YUNA>」の英語版が販売開始となりました。 \r\n英語サイトをたまに見ると、月間ランキングとか累計でも \r\n「獣姦系」の人気が高いなぁと気づかされます。 \r\nあと結構売れるサークルは凄く伸びている。 \r\n手元に半年前の累計上位 10本を書き留めたメモがあるのですが、 \r\n以下のよう

↓な状態 \r\n現在の累計順   [サークル ]  <現在の本数>  (半年前の順位 /本数)メモってたやつ \r\n...

Page 17: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 17

EUC-KR Korean <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://kgein203qkand98opekenlsk.newheart.co.kr/vksxk547fbdus/cjswp8zhem.html" charset="euc-kr"/>룰루게임 \r\n\r\n\r\n \r\n \r\n 제목 : 룰루게임 \r\n \r\n “연

애는 끝났다 .” 녀석의 입에서 전혀 예상하지 룰루게임 못했던 말이 에로무비 흘러나왔다 . 연애란 , 그 녀석이나 야한만화관 나에게 있어 담배연기여자유학생 야동

처럼 모호하고 흐릿한 단어였다 . 무한보물창꼬 더구나 어제까지만 해도 솔로 인생5 년차에 룰루게임 접어든 복학생의 삶에 대해 사춘기섹스 열변을 토하던 녀석이 아니던가 ! 평소 같았으면 일본야동 지랄한다며 카드깡 뒤통수를 때렸겠지만 비에 흠

뻑 젖어 룰루게임 자취방으로 들어온 녀석의 분위기가 심상치 않았다 . 나는 녀석이 자랑하며 한 번도 빌려주지 않던 미피 3 단 진짜무료성인사이트 우산의 행방도 과 부따먹기 정액 궁금했고 , 어떻게 하면 단 통근쾌락 치한으로 GO 하루 만에 실연당

한 남자의 눈빛을 가질 수 종합쇼핑몰순위 있는지도 궁금했고 , 핸드폰을 잃어버렸 을 네이버 야한동영상 때보다 지금이 더 슬퍼 룰루게임 보인다는 무좀치료법 사실 도 지적해주고 일본야동 싶었지만 하두리동영상 녀석의 말을 통근쾌락 치한으로

GO 듣기 농수산홈쇼핑 위해 일단 가만히 있기로 했다 . 녀석은 다른 날과 마찬가지 로 영어 성폭력동영상 학원을 마치고 짧은뉴스 지하철을 교육방송탔단다 . 룰루게

임언제나 그렇듯 늦은 시간의 지하철에는 국내동영상 사람이 별로 없었는데 , 그래 서인지 통근쾌락 치한으로 GO 맞은편에 앉은 야한카페 여자 두 명의 대화가 유독

잘 들렸단다 . gs 쇼핑몰 그 중에서도 머리칼을 자꾸만 롯데홈쇼핑 쓸어 넘기는 여자 의 말이 유독 귀에 야한카페 들어왔다고 했다 . 여자는 이렇게 무료성인사이트 말했단다 . ...

Page 18: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 18

GB2312 Chinese Simplified <CharsetTextCollectorPlugin user="Wiederitzsch" version="null" url="http://www.zwic.cn/"

charset="gb2312"/> ― 北京中兴伟华经贸有限公司 俄罗斯重型机械联合公司矿山设备技术公司( OMZ)中国代理 \r\n\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n   \r\n 北京中兴伟华经贸有限公司是国内知名的非公路运输和工程机械设备、矿山设备供应商。 \r\n 公司以促进设备国际化采购为己任,致力于中国矿业运输设备、水利施工机械等的现代化事业发展增强中国非公路运输和矿山采掘行业的国际竞争能力,推动我国有关行业企业的国际化进程,努力为包括冶金、有色、水利、建材、煤炭、油田、交通工程等行业在内的广大用户提供质优价廉的设备。 \r\n 公司主要

国外合作伙伴包括 : 俄罗斯重型机械联合公司矿山设备技术公司 - 即 OMZ( 音“ ” 译 奥姆斯 ) “ ”公司、别拉斯厂、乌拉尔重型机械厂(简称 乌重 )、伊若拉厂、雅姆斯厂、道依茨厂、乌拉尔重型汽车拖车厂、吉奥玛公司、莫阿兹汽车厂等。这些企业或者是自卸车生产的巨鳄、或者在矿山设备领域独领风骚、或者是前苏联军工企业的佼佼者、或者在世界内燃机制造业几分天下、或者在电力设备行业兴风作浪,无不是当代世界重工业发展得杰出代表。 \r\n 公司的主要经营项目有: \r\n - 矿用电铲、

吊斗铲(拉铲),破碎机和磨矿机等矿山设备 \r\n - 非公路自卸车及电动轮自卸 汽车 - 道依茨 1015C 柴油发动机 \r\n - 雅姆斯发动机及欧 2 标准发动机总成 - 电

站设备及其附件 \r\n - 重型汽车挂车产品 - 冶金设备;汽车零配件 / 机械产品的生产与来样加工 \r\n 本公司专业从事包括上述产品在内的进口工程机械、电力设备之经营,积极提供所有产品的售前、售中和售后服务。主要面向冶金、煤炭、电力、水利施工、交通工程等行业。 \r\n ...

Page 19: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 19

Big5 Chinese Traditional <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://www.elearning.ccu.edu.tw/aboutus01.htm" charset="big5"/>數位學習中心 \r\n\r\n\r\n \r\n \r\n English 首頁 網站地圖 問題與建議 \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n 中心簡介 \r\n \r\n 軟硬體設備 \r\n \r\n 服務項目 \r\n \r\n 數位課程 \r\n \r\n 網路教學 \r\n \r\n 成果展示 \r\n \r\n 中心出版品 \r\n \r\n 常見問題 \r\n \r\n 相關連結 \r\n \r\n 相關下載區 \r\n \r\n \r\n \r\n \r\n \r\n \r\n 你在這裡 > 首頁 > 中心簡介 \r\n \r\n \r\n \r\n \r\n ﹡成立目的 \r\n 數位學習中心係針對目前本校網路教學實施上的兩個關鍵瓶頸所設立的: \r\n 一、多媒體教材製作技術困難度高且曠日費時。 \r\n 二、缺少專業級教學平台伺服器及影音伺服器以支應需求。 \r\n 因此本中心的規劃特別注重人才與器材的支援,目的是要建立一支有效率的專業團隊,幫助授課老師製作課程。 \r\n \r\n網路學習異於課堂講授,如何發揮數位媒體的傳播功能,並減少遠距教學師生不能面對面溝通的困擾,是工作是最重大的挑戰。目前網路教學流程的後端平台發展已邁入成熟期,但是前端多媒體影音效果卻因無專業人員投入,授課老師多不願嘗試。即使有願意起步者,常因製作專業水準不夠,導致不知如何下手的窘境,再加上多媒體教材製作須投

入巨量時間及精力,無形中造成老師們網路教學上的障礙。 \r\n 為突破以上的網路教學發展評頸,我們需要一個專業的教材製作團隊,配置足夠的多媒體設備,根據老師的需要製作多媒體製作教材,使其授課理念可以在網路的環境中充分發揮。而授課本人只須專心於教材準備的工作,完全不用擔心技術性的問題,其參與網路教學的意

願必定倍增。 \r\n ...

Page 20: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 20

windows-1255 Hebrew <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://www.naturalway.co.il/index2.html" charset="iso-8859-8"/>הבית הטבעי r\n\r\n\r\n\ \r\n \r\n \r\n \r\n \r\n \r\n םירפסה r\n \r\n\ החנהב הרישי היינקל- ןאכ ץחל r\n \r\n\\r\n יעבטה לושיבה רפס\r\n The Golden Path to Natural Healing\r\n יעבט יופירל בהזה ליבש(" לש תבחרומו תנכדועמ הרודהמ" תיעבטה הרירבה r\n\(תויגועו תוגוע םחל רפס r\n\םירפס לש תומכ לכל\r\n חולשמ ימד ע היינקה"הטמל תבותכל ראודב קש חולשמ י r\n\r\n\ יעבט יופירל בהזה- תילגנאב םג אצי\r\n ומח הרש תאמ\r\n ןאפרלו תולחמ עונמל דציכ\r\n ליבש השק ןטרסמ ומח הרש לש, הטילחה היתובקעב\r\n ןענומלו תולחממ\r\n .םילחהל םישנאל רוזעל ידכ הדמלש םייעבטה םיעצמאב שמתשהל\r\n התמלחה רופיס\תרוקיב\r\n :ןיופירו תולחמ תעינמ\r\n .אשונב תואצרהו םיסרוק הריבעמו ישיא ץועייב ומח הרש תקסוע םויכr\n ישיאה הרופיס ללגב קר ולו ומח הרש לש הרפסמ ענכתשהל לק r\n\" התשיג, ןהו תולחמ יופירל סחיב ןה

קתרמה.תענכשמ תוחפל יתוא ". r\n\ןזואמו ןוכנ םייח חרואלו העינמל רושקה לכב". r\n\ םירפס ףסומ" ,ץראהיררה רוד, -\r\n \r\n \r\n יעבטה לושיבה רפס r\n\תיעבטה הרירבה לש תבחרומו תנכדועמ הרודהמ r\n\

ומח תיליה תאמ-ריאמ r\n\חוחינלו ליבהמ ירפכ םחל לש םעטל ונתוא ריזחמ הז ידוחיי לושיב רפס r\n\אלו םדאךימס קרמ לש רישע- םעפ ויהש ומכ .לכל םיאתמ הז רפס . r\n\םינועבטלו תואירב ירחושל קר: r\n\תרוקיב r\n\

' הנבה שי תרבחמלש רכינ,ה לושיבל רושקש המ לכב םעטו עדי 'אטוח . r\n\"ונב תבשחתמ איהו. r\n\םיבושח\r\n ."רישעו ןווגמ רפסה\r\n .תואירב תונורקע םע םיעט לושיב לש בולישב רבודמ ןכא םירפס ףסומ" ,ץראה

יררה רוד, r\n\- המגודל ןוכתמ- ןאכ ץחל \r\n \r\n \r\nםחל רפס r\n\תויגועו תוגוע םגו r\n\ ומח-ריאמ\r\n תיליה תאמ

Page 21: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 21

windows-1256 Arabic <CharsetTextCollectorPlugin user="Wiederitzsch" version="null"

url="http://www.albukairiah.net/author/" charset="windows-1256"/> - كتاب البكيرية\\r\n\r\n\r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \r\n \rالمؤلف في سطورn \r\n \r\n المؤلف في سطور - r\n \r\n\صالح بن عبد العزيز بن عبد ال الخضيري من بني العنبر

هـ1353من بني تميم ، ولد في مدينة البكيرية إحدى مدن القصيم في عام - r\n\.تلقى تعليمه على يد مشائخ.\r\n - بلده قبل فتح المدارس في بلدته هـ ، التحق بها ونال الشهادة1368 عند فتح المدرسة البتدائية عام

هـ1370 البتدائية عام .\r\n - هـ ، التحق بمدرسة دار التوحيد بالطائف1373 في عام .\r\n - في عامهـ ، عين مديراً ومدرساً لمدرسة ضرية بالقصيم1374 - r\n\. هـ ، التحق بالعمل بالمحكمة1376 في عام

هـ ، عند إنشاء مدارس البنات التحق بها كأمين لمستودعاتها1381 في عام - r\n\. الكبرى بالرياض .\r\n وعين مفتشاً بالديوان) وزارة الخدمة المدنية( هـ ، التحق بديوان الموظفين العام 1389 في عام - .\r\n -

هـ ، عين مفتشاً بالرئاسة العامة لهيئة المر بالمعروف والنهي عن المنكر بالرياض1398 في عام .\r\n - هـ ، عين مديراً عاماً لفرع الرئاسة العامة لهيئة المر بالمعروف والنهي عن المنكر بمنطقة1405 في عام

هـ ، نقل مديراً عاماً لفرع الرئاسة العامة لهيئة المر بالمعروف1415 في عام - r\n\. الحدود الشماليةهـ ، نقل للعمل مستشاراً بفرع الرئاسة العامة لهيئة1417 في عام - r\n\. والنهي عن المنكر بمنطقة الباحةهـ ، رغب في إنهاء التعاقد معه1421 في عام - r\n\. المر بالمعروف والنهي عن المنكر بمنطقة القصيمو) مدينة عرعر ( صدر للمؤلف كتاب - r\n\. حيث استقر في محافظ البكيرية ليتفرغ للبحث والتأليف

وله مؤلفات تحت الطبع) العبر في حوادث الدهر ( .\r\n \r\n \r\n \r\n

Page 22: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 22

Sprache ermitteln I• Die Sprache eines Textes muss ermittelt bzw. verifiziert werden.

• Die Aufgabe ist um so einfacher, je länger ein Text ist.

• Sehr leicht für Texte mit N=200 Wörtern oder mehr:

– Benutze für jede der zu untersuchenden Sprachen die Liste der häufigsten L=50 Wörter.

– Stelle fest, welche Liste die meisten Vertreter im Text hat.

– Falls es einen deutlichen Sieger gibt, ist dies die Sprache des Textes.

• Der Algorithmus funktioniert auch für kleinere N (z.B. N=10, ein Satz), wenn L entsprechend größer gewählt wird. Faustregel: N*L=10.000

Voraussetzung für diesen Algorithmus: Sprache bekannt, denn Stoppwörter müssen bereitgestellt werden.

Page 23: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 23

Sprache ermitteln II

Wie finden wir völlig unbekannte Sprachen, die nur sehr selten auftreten und die wir nicht kennen?

• Beispiel: 0,001% aller Seiten, • bei 107 Seiten pro Tag immerhin 100 Seiten täglich

Wir betrachten Buchstabentrigramme eines Textes, genauer den Vektor aus den häufigsten 20 Buchstabentrigrammen (inkl. Leer- und Satzzeichen).

Hoffnung: neue Sprachen zeichnen sich durch ungewöhnliche Buchstabenkombinationen aus.

Page 24: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 24

Trigram-based language detection for documents• Crawler language trigram vectors of the 30 most frequent trigrams for known

languages • For each crawled page, the 30 most frequent trigrams are determined• This vector is compared to the language trigram vectors. If they agree in at least 12

trigrams, the document is assumed to be in this language.• Language trigram vectors live at http://wortschatz.uni-

leipzig.de/findlinks/centroid.txt, adding a new language here starts collection process immediately.

Sample language trigram vectors:de 12 en_170 er_132 _de86 der68 ie_68 ich61 sch59 ein58 ch_53 die49 _di48 che47 den44 nd_43 in_42 ten42

und39 _ei36 n_d36 gen36 ine36 _un35 cht35 ung34 nde33 n._32 ter32 te_30 _au28 es_28 dk 12 er_149 en_100 et_85 _de79 for55 der55 _og54 de_54 og_53 _fo47 ing46 nde45 _i_41 til40 _ti39 _me39

ere39 den38 at_37 ter36 _at35 _af34 il_34 _er34 re_33 ed_32 _en32 or_30 det30 lle29 ee 12 _,_96 _._84 st_51 se_50 le_48 ud_44 ja_42 mis42 on_41 _se41 ise40 use38 _on38 est37 ast36 _ko35

sel35 ist34 ks_34 _ka34 da_33 _ja33 sta32 es_32 _te32 id_31 ga_31 _va30 ust29 te_28 en 12 _th133 he_116 the113 ed_64 _in55 ing52 _of52 _to50 ng_46 _an46 to_46 of_46 nd_43 ion42 and42 er_39

on_39 in_38 _a_36 ent36 _co35 es_32 _re29 s_a29 as_28 tio28 re_28 d_t28 at_26 or_26 fi 12 en_113 an_58 in_56 ist56 ja_55 sta50 _ja50 ta_48 on_43 n_k40 aan37 ise36 ssa36 n_t34 tta33 a._31

itt30 _va30 sen30 _on29 sa_29 lla28 tä_28 ksi27 taa27 ett26 lis26 _ta26 een26 ais24 fr 12 _de131 es_123 de_96 nt_68 _le68 ent67 e_d62 le_58 s_d50 _la49 la_47 ion47 e_l46 re_46 on_43 les40

_qu39 ne_38 _co38 ur_37 que37 ns_36 et_35 _pa35 tio34 _à_34 _l'33 e_p33 our33 t_d32

Page 25: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 25

Detecting new languages

If the trigram vector of a document is not similar to one of the predefined language trigram vectors:

• Send trigram vector to server

• Cluster trigram vectors

• Some clusters may correspond to “new” languages.

Sample clusters:Icelandic:

http://www.vlfs.is/, http://www.gransking.fo/Default.asp?sida=6, http://xd.is/skipulag/stjornmalaskolinn/, http://www.bladid.is/index.php? id=1&tx_ttnews[pointer]=6&cHash=36436b1024, http://www.ttfi.is/i_deiglunni/verkefni.htm, http://www.computer.is/umokkur/, http://www.melavollur.is/fullstory.php?idStory=20, http://www.veislan.is/press/fyrirt.asp?strAction=getPublication&intPublId=124, http://veldi.is/, http://myndir.grundaskoli.is/sjo/undirsidur/menning/tonlist/kvoldsigl.htm

Also link farms etc.:http://5515.n7ky2n.info/, http://122.kfupkj.info/, http://msserversql.muonsql.com /mssqlserverstoredprocedures/, http://4924.ck45ve.info/

Page 26: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 26

How much do we crawl?Let us assume: Whole web has 8 Billion pages, 5% = 400 Million pages in GermanCrawling: one round of 30 days

• One DSL-client: 320K pages, 290 MB, 150.000 sentences, 7.500 in German per day, 1/1700 of the Web per month

• One Gbit-client: 1.2M pages, 1.1 GB, 560.000 sentences, 28.000 in German per day, 1/450 of the Web per month

We are looking for crawling partners!

We are happy to share all incoming data!

Four clients per PC are possible, i.e. we need about 100 PCs anywhere for crawling with Google capacity!

Page 27: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 27

Die indo-europäische Sprachfamilie in Europa

heutigeVerbreitungder indo-europäischenSprachenund ihre Nachbar-sprachenin Europa

Page 28: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 28

Die indo-europäische Sprachfamilie

in Asien

Page 29: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 29

Die uralische Sprachfamilie

Page 30: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 30

Austro-Asiatic

Page 31: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 31

Dokumente

Text liegt in folgender Form vor:

<quelle> <name>http://...</quelle>

Die beiden englischen Vereine FC Chelsea ...

Dies ist nicht das ganze Originaldokument, sollte aber den Text (nicht aber die Bilder, Tabellen, Links, ...) des Originaldokuments im wesentlichen vollständig enthalten.

Nächster Schritt: Wir zerlegen den Text in die nächstkleineren Teile: Sätze.

Dabei verlieren eventuelle Unvollständigkeiten auf der Dokumentebene an Bedeutung.

Page 32: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 32

Regeln zur Satzsegmentierung I

Zunächst einige einfache Regeln für den Satzanfang:

• Sätze beginnen niemals mit Kleinbuchstaben.

• Nach einer Überschrift beginnt ein neuer Satz.

• Am Anfang eines Absatzes beginnt ein neuer Satz.

• Groß geschriebene Artikel (wie Der, Die, Den, ...) sprechen für einen Satzanfang.

• Beginnt kein neuer Absatz, so steht vor dem neuen Satz ein Satzendezeichen.

Page 33: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 33

Regeln zur Satzsegmentierung II

Analog gibt es einige einfache Regeln für das Satzende:

• Sätze enden mit einem Satzendezeichen. Solche Satzendezeichen sind Punkt, Fragezeichen und Ausrufezeichen. Nach dem Satzendezeichen muss zusätzlich ein white space (meist ein Leerzeichen, s.u.) stehen. Achtung, Punkte können auch an anderer Stelle stehen, z.B. nach Abkürzungen oder Zahlen.

• Vor einer Überschrift endet ein Satz.

• Am Ende eines Absatzes endet ein Satz.

• Überschriften sollten wie Sätze behandelt werden.

Page 34: 2. Vorlesung Uwe Quasthoff - uni-leipzig.deasv.informatik.uni-leipzig.de/document/file_link/... · cp857 Turkish cp861 Icelandic cp862 Hebrew cp864 Arabic cp865 Nordic cp866 Cyrillic...

U. Quasthoff Textdatenbanken 34

Schwierige Fälle• Er trägt den Titel Dr. rer. nat.

• Seit einem halben Jahr gehört Dr. rer nat. Stefan Schlatt dazu.

• Sein Glückstag ist Freitag der 13.

• Gestern war es wieder soweit: Freitag der 13. März.

Ein Satz oder mehrere:

• „Ich kann es hören! Es kommt immer näher“, rief er entsetzt.

„Natürliche“ Zerlegung:

• „Ich kann es hören!

• Es kommt immer näher“, rief er entsetzt.