SlideShare una empresa de Scribd logo
1 de 37
Descargar para leer sin conexión
Steve Kearns
Director of Product Management
www.basistech.com
Big Data Triage with Text
Analytics
Agenda
• About Basis Technology
• Challenges of Big Bata
• Text Analytics Technology
• Text Analytics for Big Data Triage
About Basis Technology
• Specialists in human language technology, as applied to
web and enterprise search, OSINT/DOCEX/MEDEX, e-
discovery, and digital forensics
• Developers of the most capable, most mature, and
most widely used platform for multilingual text
analytics
• Solutions for government agencies dealing with multi-
source intelligence and large data sets
Customers
 Central Intelligence Agency (CIA)
 Defense Intelligence Agency (DIA)
 Department of Defense (DOD)
 Federal Bureau of Investigation (FBI)
 National Security Agency (NSA)
 “International police agency”
 French MOD
 Japanese MOD
 Singapore CSIT
What is Big Data?
Big Data
• Volume
• Velocity
• Variety
http://mashable.com/2012/06/22/data-created-every-minute/
Volume
Velocity
• High-Throughput Sources:
Digital Forensics
• Rapid Site Exploitation
• Many Hard Drives
• Rapidly Changing Sources:
News
Social Media
Network traffic
• High Throughput Storage, Analysis, Alerting
Variety
• Data Types
 DOMEX/DOCEX/MEDEX/OSINT
 Finished Intel
 Cables
 Harmony
 Biometrics
 Watch Lists
 Hard Drive -> File(s) -> Unstructured and Structured Content
 Sensor Data
• Structured / Unstructured
• Textual / Visual / Numeric
The Challenge: Finding Value
http://learn-how-to-be-happy.com/wp-content/uploads/2011/08/happy_face.jpg
Big Data Problems - Volume
• Where/How do you store it?
Single database -> database cluster -> Hadoop/HDFS?
• Data quality?
 Manual review or annotation?
 People don’t scale
• Query
 If you can, how fast, how complex and on what can you query?
 User Interface? SQL? Programming?
 How do you view results?
 Can you filter the results to refine your query?
 Thematic exploration, where the results of one query inform the next
 Security?
Big Data Problems - Velocity
• Time sensitive
 Value of information decreases over time
 How long from “publish” to “discoverable”?
• Rapid changes/updates
 Which updates are important?
 Which sources/users are important? Which may become important?
 Individual pieces of data may be meaningless, but what about in aggregate?
 Quality/Verification?
 Manual Review?
Big Data Problems - Variety
• Many Sources
 Often stored, formatted, and accessed differently
 Access, security?
 Many languages
 How reliable is each source?
• Few, if any, links
 Between sources
 Between documents
 Between information within documents
General Problem
• Computers are great at some things
• Humans are great at others
2 + 2
Scale
Human
Language
Text Analytics
Text Analytics
Automated analytical methods
operating on the written word to
surface insights about the data.
It's purpose is to assist the human in
finding things of relevance and
interest.
Text Analytics techniques
Triage Example
Baghdad military command spokesman
Colonel Dhia al-Wakeel said the attacks bore
the hallmarks of al-Qaeda.
Thursday was the deadliest day in Iraq since
March 20, when shootings and bombings
claimed by an al-Qaeda affiliated group
killed 50 people and wounded 255
nationwide.
Al-Qaeda has the following direct franchises:
Al-Qaeda in the Arabian Peninsula, which comprises
 Al Qaeda in Saudi Arabia, and
 Islamic Jihad of Yemen
 Al-Qaeda in Iraq
 Al-Qaeda Organization in the Islamic Maghreb
 Al-Shabaab in Somalia
 Egyptian Islamic Jihad
 Libyan Islamic Fighting Group
 East Turkestan Islamic Movement in Xinjiang, China
Query: Al Qaeda
al-Qaeda 0.99
(al-Qa'idah)‫القاعـدة‬ 0.99
Al -Qaeda 0.99
(al-Qa'idah)‫القاعدة‬ 0.99
al-Qada 0.91
al-Qaida 0.91
Al-Qa'ida 0.91
Al-Qaïda 0.91
al-Qaida Africa 0.78
Al-Qaeda Sanctions List 0.74
Al-Qaïda Libyenne 0.74
‫القاعدة‬ ‫وتنظيم‬ 0.74
al-Qaeda in Islamic
Maghreb 0.7
Text Analytics : Language ID
La Grande-Bretagne a
de son côté jugé que
l'accord de
Luxembourg
constituait un
véritable changement
dans la stratégie
agricole de l'Europe,
tandis que l'Irlande y a
vu un gage de stabilité
et et de sécurité pour
les agriculteurs. Le président nigérian
Olusegun Obasanjo a
salué cette
l'engagement du G8,
déclarant que "la
condition majeure au
développement est
l'absence de conflit".
La porte-parole de la
présidence française,
Catherine Colonna, a
pour sa part qualifié la
réunion
d'"exceptionnelle".
Американская
софтверная компания
становится
пользующимся спросом
у спецслужб США
экспертом в области
лингвистики (в
частности, изучения и
обработки информации
на арабском языке)
после терактов 11
сентября 2001 г.
В данный момент
правительство США,
обвиняющее
радикальную
мусульманскую
группировку "Аль
Каида" в терактах 2
года назад,
активизирует свое
внимание к арабскому
языку и программам
его обработки.
Грамматика языков
данной группы
「端末側で行単位に(あるいは一
画面分)編集しておいて、
送信キーによりまとめて送信する
」という方式と、
「端末には知能はなく、一字一字
すべてがその都度送られ処理さ
れる」
という方式は、究極的に前者は
半二重通信、後者は全二重通信
とフィットします。
後者では、入力のエコーもコンピ
ュータ側で制御されます。
つまり、入力した字の表示はキー
入力がコンピュータに送られ、
それが送り返されて表示されま
す。
FNPがコンピュータと端末の間に
あって、実際の端末とのやりとり
を制御するのです。そして、コン
ピュータとFNPの間の通信は、
少量の転送には不向きで、大量
の一括転送に向いていました。
FNPによるコンピュータへの割り
込み要求は高価なものだったか
らです。Multicsでのプロセスの
wake upも高価だということもあり
ました。
私ごとになりますが、ちょうどこの
ころ大学院生でしたが、ACOS-6
用のある言語処理系の開発を請
け負って作っていました。ACOS-
6はMulticsの概念に非常に近い
ものを持っていました、あるいは
持とうとしていました。
また、ハードウェアも大変似てい
ました。シールをはがすと、
その下から別のアメリカの会社の
名前が出てくるマシンでテスト
したこともありました。1年間ほと
んど休みなしにマシンルーム
にこもっていて、ここでの議論と
疑問を自分のテーマとしても
扱ったことがあるのです。それで
、よーくわかるのです。
Après avoir rencontré
les présidents de
quatre des cinq pays
africains (Afrique du
Sud, Algérie, Sénégal,
Nigeria) membres du
comité de pilotage du
Nouveau partenariat
pour le développement
économique de
l'Afrique
Программное обеспечение
Basis Technology позволяет
осуществлять поиск слов с
близкими значениями, а
также транслитерировать
арабские и фарси-буквы в
латинские. Продукт был
разработан по
специальному заказу
правительства США с
целью оптимизации
процесса анализа арабских
текстов.
La Grande-Bretagne a
de son côté jugé que
l'accord de
Luxembourg
constituait un
véritable changement
dans la stratégie
Après avoir rencontré
les présidents de
quatre des cinq pays
africains (Afrique du
Sud, Algérie, Sénégal,
Nigeria) membres du
comité de pilotage du
Le président nigérian
Olusegun Obasanjo a
salué cette
l'engagement du G8,
déclarant que "la
condition majeure au
développement est
Программное обеспечение
Basis Technology позволяет
осуществлять поиск слов с
близкими значениями, а
также транслитерировать
Американская
софтверная компания
становится
пользующимся спросом
у спецслужб США
экспертом в области
В данный момент
правительство США,
обвиняющее
радикальную
мусульманскую
группировку "Аль
Каида" в терактах 2
「端末側で行単位に(あるいは一
画面分)編集しておいて、
送信キーによりまとめて送信する
」という方式と、
「端末には知能はなく、一字一字
すべてがその都度送られ処理さ
れる」
FNPがコンピュータと端末の間に
あって、実際の端末とのやりとり
を制御するのです。そして、コン
ピュータとFNPの間の通信は、
少量の転送には不向きで、大量
の一括転送に向いていました。
FNPによるコンピュータへの割り
「端末側で行単位に(あるいは一
画面分)編集しておいて、
送信キーによりまとめて送信する
」という方式と、
「端末には知能はなく、一字一字
すべてがその都度送られ処理さ
れる」
French
Russian
Japanese
Text Analytics: Lemmatization
flying Search
Results
fly 132 hits
flown 61 hits
flew 78 hits
flying 97 hits
Text Analytics: Lemmatization (Arabic)
‫فجر‬ Search
Results
(Detonated)
‫وتفجيرها‬ 132 hits
‫متفجرات‬ 77 hits
‫تفجيرات‬ 32 hits
‫فجرها‬ 22 hits
‫تفجرت‬ 2 hits
Text Analytics: Entity Extraction
Text Analytics: Relationship Extraction
Text Analytics: Entity Search
Text Analytics: Document Clustering
Big Data Triage
Text Analytics
Big Data Processing
• Identify data sources
• Data cleansing
• Move data into analysis repository
Collect
• Identify Entities, Facts, Relationships
• Link between Documents
• Link fact/entity between documents
Analyze
• Keyword search + metadata filters
• Thematic exploration – using metadata
• Cross-document links
Index
Big Data Processing - Technology
• Source: News, Twitter, Database, file system, digital
forensics, etc.
• Storage: HDFS, MongoDB, SQL, etc.
Collect
• Platform: Hadoop, UIMA, Odyssey, Custom
• Analysis type: Language ID, Entity Extraction,
Relationship Extraction, Document Clustering, Entity
Linking
Analyze
• Fulltext Search: Solr, Accumulo, Lucene
• Structured Data: RDF, SQL, OrientDB, Neo4j,
Cassandra, HDFS, etc.Index
Big Data Triage Requirements
• View results while still processing
 Incremental collection/analysis/indexing
• User Interface that allows exploration
 Dashboard
 Keyword Search
 Geo Search
 Entity Search
• Enables thematic exploration
 Metadata produced by Analysis makes this easier
Dashboard
Search and Filter
Foreign Language Search
Detailed Document View
Entity Search – Cross Language
Search/Filter/Explore
http://www.silobreaker.com/FlashNetwork.aspx?DrillDownItems=11_237360
Summary
Text Analytics enables Big Data Triage
• For more information:
• Visit www.basistech.com
Thank you!

Más contenido relacionado

Destacado

II-SDV 2013 The Analytics Challenges Posed by Big Data
II-SDV 2013 The Analytics Challenges Posed by Big DataII-SDV 2013 The Analytics Challenges Posed by Big Data
II-SDV 2013 The Analytics Challenges Posed by Big DataDr. Haxel Consult
 
Roche Diabetes Care Incubator - Sebastiaan la Bastide Roche Diabetes Stanford...
Roche Diabetes Care Incubator - Sebastiaan la Bastide Roche Diabetes Stanford...Roche Diabetes Care Incubator - Sebastiaan la Bastide Roche Diabetes Stanford...
Roche Diabetes Care Incubator - Sebastiaan la Bastide Roche Diabetes Stanford...Burton Lee
 
II-SDV 2015 The International Information Conference on Search, Data Mining a...
II-SDV 2015 The International Information Conference on Search, Data Mining a...II-SDV 2015 The International Information Conference on Search, Data Mining a...
II-SDV 2015 The International Information Conference on Search, Data Mining a...Dr. Haxel Consult
 
Roche's Acquisition of Genentech
Roche's Acquisition of GenentechRoche's Acquisition of Genentech
Roche's Acquisition of GenentechYu Cao
 
PatSeer Introduction
PatSeer IntroductionPatSeer Introduction
PatSeer IntroductionGridlogics
 
II-SDV 2017 in Nice - The International Information Conference on Search, Dat...
II-SDV 2017 in Nice - The International Information Conference on Search, Dat...II-SDV 2017 in Nice - The International Information Conference on Search, Dat...
II-SDV 2017 in Nice - The International Information Conference on Search, Dat...Dr. Haxel Consult
 

Destacado (7)

II-SDV 2013 The Analytics Challenges Posed by Big Data
II-SDV 2013 The Analytics Challenges Posed by Big DataII-SDV 2013 The Analytics Challenges Posed by Big Data
II-SDV 2013 The Analytics Challenges Posed by Big Data
 
Roche Diabetes Care Incubator - Sebastiaan la Bastide Roche Diabetes Stanford...
Roche Diabetes Care Incubator - Sebastiaan la Bastide Roche Diabetes Stanford...Roche Diabetes Care Incubator - Sebastiaan la Bastide Roche Diabetes Stanford...
Roche Diabetes Care Incubator - Sebastiaan la Bastide Roche Diabetes Stanford...
 
II-SDV 2015 The International Information Conference on Search, Data Mining a...
II-SDV 2015 The International Information Conference on Search, Data Mining a...II-SDV 2015 The International Information Conference on Search, Data Mining a...
II-SDV 2015 The International Information Conference on Search, Data Mining a...
 
Roche Genentech Acquisition Analysis
Roche   Genentech Acquisition AnalysisRoche   Genentech Acquisition Analysis
Roche Genentech Acquisition Analysis
 
Roche's Acquisition of Genentech
Roche's Acquisition of GenentechRoche's Acquisition of Genentech
Roche's Acquisition of Genentech
 
PatSeer Introduction
PatSeer IntroductionPatSeer Introduction
PatSeer Introduction
 
II-SDV 2017 in Nice - The International Information Conference on Search, Dat...
II-SDV 2017 in Nice - The International Information Conference on Search, Dat...II-SDV 2017 in Nice - The International Information Conference on Search, Dat...
II-SDV 2017 in Nice - The International Information Conference on Search, Dat...
 

Similar a II-SDV 2013 Big Data Triage with Text Analytics

包括的な可視性を確立し、潜在するセキュリティの問題を見つけ出す
包括的な可視性を確立し、潜在するセキュリティの問題を見つけ出す 包括的な可視性を確立し、潜在するセキュリティの問題を見つけ出す
包括的な可視性を確立し、潜在するセキュリティの問題を見つけ出す Elasticsearch
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
経営幹部のIT利活用(公開用)
経営幹部のIT利活用(公開用)経営幹部のIT利活用(公開用)
経営幹部のIT利活用(公開用)Katsuhide Hirai
 
情報リテラシーとセキュリティ-松阪市役所新規採用職員研修
情報リテラシーとセキュリティ-松阪市役所新規採用職員研修情報リテラシーとセキュリティ-松阪市役所新規採用職員研修
情報リテラシーとセキュリティ-松阪市役所新規採用職員研修Hiroshi Morimoto
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題kurikiyo
 
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットと SNS上での構築とその課題
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットとSNS上での構築とその課題2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットとSNS上での構築とその課題
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットと SNS上での構築とその課題Ruo Ando
 
Dat005 マイクロソフト社
Dat005 マイクロソフト社Dat005 マイクロソフト社
Dat005 マイクロソフト社Tech Summit 2016
 
Dat005 マイクロソフト社
Dat005 マイクロソフト社Dat005 マイクロソフト社
Dat005 マイクロソフト社Tech Summit 2016
 
細工された製品が突然牙をむく「サプライチェーン攻撃」の脅威
細工された製品が突然牙をむく「サプライチェーン攻撃」の脅威細工された製品が突然牙をむく「サプライチェーン攻撃」の脅威
細工された製品が突然牙をむく「サプライチェーン攻撃」の脅威Noriaki Hayashi
 
ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦Takumi Kurosawa
 
【de:code 2020】 Development from anywhere! 全ての開発者が生産性を維持するためにマイクロソフトが貢献できること
【de:code 2020】 Development from anywhere! 全ての開発者が生産性を維持するためにマイクロソフトが貢献できること【de:code 2020】 Development from anywhere! 全ての開発者が生産性を維持するためにマイクロソフトが貢献できること
【de:code 2020】 Development from anywhere! 全ての開発者が生産性を維持するためにマイクロソフトが貢献できること日本マイクロソフト株式会社
 
Ruby in the US Government for Ruby World Conference
Ruby in the US Government for Ruby World ConferenceRuby in the US Government for Ruby World Conference
Ruby in the US Government for Ruby World ConferenceSarah Allen
 
20120620 idg(ontrox) v1.6
20120620 idg(ontrox) v1.620120620 idg(ontrox) v1.6
20120620 idg(ontrox) v1.6ONTROX
 

Similar a II-SDV 2013 Big Data Triage with Text Analytics (20)

包括的な可視性を確立し、潜在するセキュリティの問題を見つけ出す
包括的な可視性を確立し、潜在するセキュリティの問題を見つけ出す 包括的な可視性を確立し、潜在するセキュリティの問題を見つけ出す
包括的な可視性を確立し、潜在するセキュリティの問題を見つけ出す
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
Kspin20121201 kobayashi
Kspin20121201 kobayashiKspin20121201 kobayashi
Kspin20121201 kobayashi
 
経営幹部のIT利活用(公開用)
経営幹部のIT利活用(公開用)経営幹部のIT利活用(公開用)
経営幹部のIT利活用(公開用)
 
情報リテラシーとセキュリティ-松阪市役所新規採用職員研修
情報リテラシーとセキュリティ-松阪市役所新規採用職員研修情報リテラシーとセキュリティ-松阪市役所新規採用職員研修
情報リテラシーとセキュリティ-松阪市役所新規採用職員研修
 
情報リテラシー入門
情報リテラシー入門情報リテラシー入門
情報リテラシー入門
 
#022 waap
#022 waap#022 waap
#022 waap
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットと SNS上での構築とその課題
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットとSNS上での構築とその課題2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットとSNS上での構築とその課題
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットと SNS上での構築とその課題
 
Dat005 マイクロソフト社
Dat005 マイクロソフト社Dat005 マイクロソフト社
Dat005 マイクロソフト社
 
Dat005 マイクロソフト社
Dat005 マイクロソフト社Dat005 マイクロソフト社
Dat005 マイクロソフト社
 
細工された製品が突然牙をむく「サプライチェーン攻撃」の脅威
細工された製品が突然牙をむく「サプライチェーン攻撃」の脅威細工された製品が突然牙をむく「サプライチェーン攻撃」の脅威
細工された製品が突然牙をむく「サプライチェーン攻撃」の脅威
 
ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦
 
【de:code 2020】 Development from anywhere! 全ての開発者が生産性を維持するためにマイクロソフトが貢献できること
【de:code 2020】 Development from anywhere! 全ての開発者が生産性を維持するためにマイクロソフトが貢献できること【de:code 2020】 Development from anywhere! 全ての開発者が生産性を維持するためにマイクロソフトが貢献できること
【de:code 2020】 Development from anywhere! 全ての開発者が生産性を維持するためにマイクロソフトが貢献できること
 
Ruby in the US Government for Ruby World Conference
Ruby in the US Government for Ruby World ConferenceRuby in the US Government for Ruby World Conference
Ruby in the US Government for Ruby World Conference
 
20120620 idg(ontrox) v1.6
20120620 idg(ontrox) v1.620120620 idg(ontrox) v1.6
20120620 idg(ontrox) v1.6
 
2013 アメリカのIT政策の動向(前編)
2013 アメリカのIT政策の動向(前編)2013 アメリカのIT政策の動向(前編)
2013 アメリカのIT政策の動向(前編)
 

Más de Dr. Haxel Consult

AI-SDV 2022: Henry Chang Patent Intelligence and Engineering Management
AI-SDV 2022: Henry Chang Patent Intelligence and Engineering ManagementAI-SDV 2022: Henry Chang Patent Intelligence and Engineering Management
AI-SDV 2022: Henry Chang Patent Intelligence and Engineering ManagementDr. Haxel Consult
 
AI-SDV 2022: Creation and updating of large Knowledge Graphs through NLP Anal...
AI-SDV 2022: Creation and updating of large Knowledge Graphs through NLP Anal...AI-SDV 2022: Creation and updating of large Knowledge Graphs through NLP Anal...
AI-SDV 2022: Creation and updating of large Knowledge Graphs through NLP Anal...Dr. Haxel Consult
 
AI-SDV 2022: The race to net zero: Tracking the green industrial revolution t...
AI-SDV 2022: The race to net zero: Tracking the green industrial revolution t...AI-SDV 2022: The race to net zero: Tracking the green industrial revolution t...
AI-SDV 2022: The race to net zero: Tracking the green industrial revolution t...Dr. Haxel Consult
 
AI-SDV 2022: Accommodating the Deep Learning Revolution by a Development Proc...
AI-SDV 2022: Accommodating the Deep Learning Revolution by a Development Proc...AI-SDV 2022: Accommodating the Deep Learning Revolution by a Development Proc...
AI-SDV 2022: Accommodating the Deep Learning Revolution by a Development Proc...Dr. Haxel Consult
 
AI-SDV 2022: Domain Knowledge makes Artificial Intelligence Smart Linda Ander...
AI-SDV 2022: Domain Knowledge makes Artificial Intelligence Smart Linda Ander...AI-SDV 2022: Domain Knowledge makes Artificial Intelligence Smart Linda Ander...
AI-SDV 2022: Domain Knowledge makes Artificial Intelligence Smart Linda Ander...Dr. Haxel Consult
 
AI-SDV 2022: Embedding-based Search Vs. Relevancy Search: comparing the new w...
AI-SDV 2022: Embedding-based Search Vs. Relevancy Search: comparing the new w...AI-SDV 2022: Embedding-based Search Vs. Relevancy Search: comparing the new w...
AI-SDV 2022: Embedding-based Search Vs. Relevancy Search: comparing the new w...Dr. Haxel Consult
 
AI-SDV 2022: Rolling out web crawling at Boehringer Ingelheim - 10 years of e...
AI-SDV 2022: Rolling out web crawling at Boehringer Ingelheim - 10 years of e...AI-SDV 2022: Rolling out web crawling at Boehringer Ingelheim - 10 years of e...
AI-SDV 2022: Rolling out web crawling at Boehringer Ingelheim - 10 years of e...Dr. Haxel Consult
 
AI-SDV 2022: Machine learning based patent categorization: A success story in...
AI-SDV 2022: Machine learning based patent categorization: A success story in...AI-SDV 2022: Machine learning based patent categorization: A success story in...
AI-SDV 2022: Machine learning based patent categorization: A success story in...Dr. Haxel Consult
 
AI-SDV 2022: Machine learning based patent categorization: A success story in...
AI-SDV 2022: Machine learning based patent categorization: A success story in...AI-SDV 2022: Machine learning based patent categorization: A success story in...
AI-SDV 2022: Machine learning based patent categorization: A success story in...Dr. Haxel Consult
 
AI-SDV 2022: Finding the WHAT – Will AI help? Nils Newman (Search Technology,...
AI-SDV 2022: Finding the WHAT – Will AI help? Nils Newman (Search Technology,...AI-SDV 2022: Finding the WHAT – Will AI help? Nils Newman (Search Technology,...
AI-SDV 2022: Finding the WHAT – Will AI help? Nils Newman (Search Technology,...Dr. Haxel Consult
 
AI-SDV 2022: New Insights from Trademarks with Natural Language Processing Al...
AI-SDV 2022: New Insights from Trademarks with Natural Language Processing Al...AI-SDV 2022: New Insights from Trademarks with Natural Language Processing Al...
AI-SDV 2022: New Insights from Trademarks with Natural Language Processing Al...Dr. Haxel Consult
 
AI-SDV 2022: Extracting information from tables in documents Holger Keibel (K...
AI-SDV 2022: Extracting information from tables in documents Holger Keibel (K...AI-SDV 2022: Extracting information from tables in documents Holger Keibel (K...
AI-SDV 2022: Extracting information from tables in documents Holger Keibel (K...Dr. Haxel Consult
 
AI-SDV 2022: Scientific publishing in the age of data mining and artificial i...
AI-SDV 2022: Scientific publishing in the age of data mining and artificial i...AI-SDV 2022: Scientific publishing in the age of data mining and artificial i...
AI-SDV 2022: Scientific publishing in the age of data mining and artificial i...Dr. Haxel Consult
 
AI-SDV 2022: AI developments and usability Linus Wretblad (IPscreener / Uppdr...
AI-SDV 2022: AI developments and usability Linus Wretblad (IPscreener / Uppdr...AI-SDV 2022: AI developments and usability Linus Wretblad (IPscreener / Uppdr...
AI-SDV 2022: AI developments and usability Linus Wretblad (IPscreener / Uppdr...Dr. Haxel Consult
 
AI-SDV 2022: Where’s the one about…? Looney Tunes® Revisited Jay Ven Eman (CE...
AI-SDV 2022: Where’s the one about…? Looney Tunes® Revisited Jay Ven Eman (CE...AI-SDV 2022: Where’s the one about…? Looney Tunes® Revisited Jay Ven Eman (CE...
AI-SDV 2022: Where’s the one about…? Looney Tunes® Revisited Jay Ven Eman (CE...Dr. Haxel Consult
 
AI-SDV 2022: Copyright Clearance Center
AI-SDV 2022: Copyright Clearance CenterAI-SDV 2022: Copyright Clearance Center
AI-SDV 2022: Copyright Clearance CenterDr. Haxel Consult
 
AI-SDV 2022: New Product Introductions: CENTREDOC
AI-SDV 2022: New Product Introductions: CENTREDOCAI-SDV 2022: New Product Introductions: CENTREDOC
AI-SDV 2022: New Product Introductions: CENTREDOCDr. Haxel Consult
 
AI-SDV 2022: Possibilities and limitations of AI-boosted multi-categorization...
AI-SDV 2022: Possibilities and limitations of AI-boosted multi-categorization...AI-SDV 2022: Possibilities and limitations of AI-boosted multi-categorization...
AI-SDV 2022: Possibilities and limitations of AI-boosted multi-categorization...Dr. Haxel Consult
 
AI-SDV 2022: Big data analytics platform at Bayer – Turning bits into insight...
AI-SDV 2022: Big data analytics platform at Bayer – Turning bits into insight...AI-SDV 2022: Big data analytics platform at Bayer – Turning bits into insight...
AI-SDV 2022: Big data analytics platform at Bayer – Turning bits into insight...Dr. Haxel Consult
 

Más de Dr. Haxel Consult (20)

AI-SDV 2022: Henry Chang Patent Intelligence and Engineering Management
AI-SDV 2022: Henry Chang Patent Intelligence and Engineering ManagementAI-SDV 2022: Henry Chang Patent Intelligence and Engineering Management
AI-SDV 2022: Henry Chang Patent Intelligence and Engineering Management
 
AI-SDV 2022: Creation and updating of large Knowledge Graphs through NLP Anal...
AI-SDV 2022: Creation and updating of large Knowledge Graphs through NLP Anal...AI-SDV 2022: Creation and updating of large Knowledge Graphs through NLP Anal...
AI-SDV 2022: Creation and updating of large Knowledge Graphs through NLP Anal...
 
AI-SDV 2022: The race to net zero: Tracking the green industrial revolution t...
AI-SDV 2022: The race to net zero: Tracking the green industrial revolution t...AI-SDV 2022: The race to net zero: Tracking the green industrial revolution t...
AI-SDV 2022: The race to net zero: Tracking the green industrial revolution t...
 
AI-SDV 2022: Accommodating the Deep Learning Revolution by a Development Proc...
AI-SDV 2022: Accommodating the Deep Learning Revolution by a Development Proc...AI-SDV 2022: Accommodating the Deep Learning Revolution by a Development Proc...
AI-SDV 2022: Accommodating the Deep Learning Revolution by a Development Proc...
 
AI-SDV 2022: Domain Knowledge makes Artificial Intelligence Smart Linda Ander...
AI-SDV 2022: Domain Knowledge makes Artificial Intelligence Smart Linda Ander...AI-SDV 2022: Domain Knowledge makes Artificial Intelligence Smart Linda Ander...
AI-SDV 2022: Domain Knowledge makes Artificial Intelligence Smart Linda Ander...
 
AI-SDV 2022: Embedding-based Search Vs. Relevancy Search: comparing the new w...
AI-SDV 2022: Embedding-based Search Vs. Relevancy Search: comparing the new w...AI-SDV 2022: Embedding-based Search Vs. Relevancy Search: comparing the new w...
AI-SDV 2022: Embedding-based Search Vs. Relevancy Search: comparing the new w...
 
AI-SDV 2022: Rolling out web crawling at Boehringer Ingelheim - 10 years of e...
AI-SDV 2022: Rolling out web crawling at Boehringer Ingelheim - 10 years of e...AI-SDV 2022: Rolling out web crawling at Boehringer Ingelheim - 10 years of e...
AI-SDV 2022: Rolling out web crawling at Boehringer Ingelheim - 10 years of e...
 
AI-SDV 2022: Machine learning based patent categorization: A success story in...
AI-SDV 2022: Machine learning based patent categorization: A success story in...AI-SDV 2022: Machine learning based patent categorization: A success story in...
AI-SDV 2022: Machine learning based patent categorization: A success story in...
 
AI-SDV 2022: Machine learning based patent categorization: A success story in...
AI-SDV 2022: Machine learning based patent categorization: A success story in...AI-SDV 2022: Machine learning based patent categorization: A success story in...
AI-SDV 2022: Machine learning based patent categorization: A success story in...
 
AI-SDV 2022: Finding the WHAT – Will AI help? Nils Newman (Search Technology,...
AI-SDV 2022: Finding the WHAT – Will AI help? Nils Newman (Search Technology,...AI-SDV 2022: Finding the WHAT – Will AI help? Nils Newman (Search Technology,...
AI-SDV 2022: Finding the WHAT – Will AI help? Nils Newman (Search Technology,...
 
AI-SDV 2022: New Insights from Trademarks with Natural Language Processing Al...
AI-SDV 2022: New Insights from Trademarks with Natural Language Processing Al...AI-SDV 2022: New Insights from Trademarks with Natural Language Processing Al...
AI-SDV 2022: New Insights from Trademarks with Natural Language Processing Al...
 
AI-SDV 2022: Extracting information from tables in documents Holger Keibel (K...
AI-SDV 2022: Extracting information from tables in documents Holger Keibel (K...AI-SDV 2022: Extracting information from tables in documents Holger Keibel (K...
AI-SDV 2022: Extracting information from tables in documents Holger Keibel (K...
 
AI-SDV 2022: Scientific publishing in the age of data mining and artificial i...
AI-SDV 2022: Scientific publishing in the age of data mining and artificial i...AI-SDV 2022: Scientific publishing in the age of data mining and artificial i...
AI-SDV 2022: Scientific publishing in the age of data mining and artificial i...
 
AI-SDV 2022: AI developments and usability Linus Wretblad (IPscreener / Uppdr...
AI-SDV 2022: AI developments and usability Linus Wretblad (IPscreener / Uppdr...AI-SDV 2022: AI developments and usability Linus Wretblad (IPscreener / Uppdr...
AI-SDV 2022: AI developments and usability Linus Wretblad (IPscreener / Uppdr...
 
AI-SDV 2022: Where’s the one about…? Looney Tunes® Revisited Jay Ven Eman (CE...
AI-SDV 2022: Where’s the one about…? Looney Tunes® Revisited Jay Ven Eman (CE...AI-SDV 2022: Where’s the one about…? Looney Tunes® Revisited Jay Ven Eman (CE...
AI-SDV 2022: Where’s the one about…? Looney Tunes® Revisited Jay Ven Eman (CE...
 
AI-SDV 2022: Copyright Clearance Center
AI-SDV 2022: Copyright Clearance CenterAI-SDV 2022: Copyright Clearance Center
AI-SDV 2022: Copyright Clearance Center
 
AI-SDV 2022: Lighthouse IP
AI-SDV 2022: Lighthouse IPAI-SDV 2022: Lighthouse IP
AI-SDV 2022: Lighthouse IP
 
AI-SDV 2022: New Product Introductions: CENTREDOC
AI-SDV 2022: New Product Introductions: CENTREDOCAI-SDV 2022: New Product Introductions: CENTREDOC
AI-SDV 2022: New Product Introductions: CENTREDOC
 
AI-SDV 2022: Possibilities and limitations of AI-boosted multi-categorization...
AI-SDV 2022: Possibilities and limitations of AI-boosted multi-categorization...AI-SDV 2022: Possibilities and limitations of AI-boosted multi-categorization...
AI-SDV 2022: Possibilities and limitations of AI-boosted multi-categorization...
 
AI-SDV 2022: Big data analytics platform at Bayer – Turning bits into insight...
AI-SDV 2022: Big data analytics platform at Bayer – Turning bits into insight...AI-SDV 2022: Big data analytics platform at Bayer – Turning bits into insight...
AI-SDV 2022: Big data analytics platform at Bayer – Turning bits into insight...
 

II-SDV 2013 Big Data Triage with Text Analytics

  • 1. Steve Kearns Director of Product Management www.basistech.com Big Data Triage with Text Analytics
  • 2. Agenda • About Basis Technology • Challenges of Big Bata • Text Analytics Technology • Text Analytics for Big Data Triage
  • 3. About Basis Technology • Specialists in human language technology, as applied to web and enterprise search, OSINT/DOCEX/MEDEX, e- discovery, and digital forensics • Developers of the most capable, most mature, and most widely used platform for multilingual text analytics • Solutions for government agencies dealing with multi- source intelligence and large data sets
  • 4. Customers  Central Intelligence Agency (CIA)  Defense Intelligence Agency (DIA)  Department of Defense (DOD)  Federal Bureau of Investigation (FBI)  National Security Agency (NSA)  “International police agency”  French MOD  Japanese MOD  Singapore CSIT
  • 5. What is Big Data?
  • 6. Big Data • Volume • Velocity • Variety
  • 8. Velocity • High-Throughput Sources: Digital Forensics • Rapid Site Exploitation • Many Hard Drives • Rapidly Changing Sources: News Social Media Network traffic • High Throughput Storage, Analysis, Alerting
  • 9. Variety • Data Types  DOMEX/DOCEX/MEDEX/OSINT  Finished Intel  Cables  Harmony  Biometrics  Watch Lists  Hard Drive -> File(s) -> Unstructured and Structured Content  Sensor Data • Structured / Unstructured • Textual / Visual / Numeric
  • 10. The Challenge: Finding Value http://learn-how-to-be-happy.com/wp-content/uploads/2011/08/happy_face.jpg
  • 11. Big Data Problems - Volume • Where/How do you store it? Single database -> database cluster -> Hadoop/HDFS? • Data quality?  Manual review or annotation?  People don’t scale • Query  If you can, how fast, how complex and on what can you query?  User Interface? SQL? Programming?  How do you view results?  Can you filter the results to refine your query?  Thematic exploration, where the results of one query inform the next  Security?
  • 12. Big Data Problems - Velocity • Time sensitive  Value of information decreases over time  How long from “publish” to “discoverable”? • Rapid changes/updates  Which updates are important?  Which sources/users are important? Which may become important?  Individual pieces of data may be meaningless, but what about in aggregate?  Quality/Verification?  Manual Review?
  • 13. Big Data Problems - Variety • Many Sources  Often stored, formatted, and accessed differently  Access, security?  Many languages  How reliable is each source? • Few, if any, links  Between sources  Between documents  Between information within documents
  • 14. General Problem • Computers are great at some things • Humans are great at others 2 + 2 Scale Human Language
  • 16. Text Analytics Automated analytical methods operating on the written word to surface insights about the data. It's purpose is to assist the human in finding things of relevance and interest.
  • 18. Triage Example Baghdad military command spokesman Colonel Dhia al-Wakeel said the attacks bore the hallmarks of al-Qaeda. Thursday was the deadliest day in Iraq since March 20, when shootings and bombings claimed by an al-Qaeda affiliated group killed 50 people and wounded 255 nationwide. Al-Qaeda has the following direct franchises: Al-Qaeda in the Arabian Peninsula, which comprises  Al Qaeda in Saudi Arabia, and  Islamic Jihad of Yemen  Al-Qaeda in Iraq  Al-Qaeda Organization in the Islamic Maghreb  Al-Shabaab in Somalia  Egyptian Islamic Jihad  Libyan Islamic Fighting Group  East Turkestan Islamic Movement in Xinjiang, China Query: Al Qaeda al-Qaeda 0.99 (al-Qa'idah)‫القاعـدة‬ 0.99 Al -Qaeda 0.99 (al-Qa'idah)‫القاعدة‬ 0.99 al-Qada 0.91 al-Qaida 0.91 Al-Qa'ida 0.91 Al-Qaïda 0.91 al-Qaida Africa 0.78 Al-Qaeda Sanctions List 0.74 Al-Qaïda Libyenne 0.74 ‫القاعدة‬ ‫وتنظيم‬ 0.74 al-Qaeda in Islamic Maghreb 0.7
  • 19. Text Analytics : Language ID La Grande-Bretagne a de son côté jugé que l'accord de Luxembourg constituait un véritable changement dans la stratégie agricole de l'Europe, tandis que l'Irlande y a vu un gage de stabilité et et de sécurité pour les agriculteurs. Le président nigérian Olusegun Obasanjo a salué cette l'engagement du G8, déclarant que "la condition majeure au développement est l'absence de conflit". La porte-parole de la présidence française, Catherine Colonna, a pour sa part qualifié la réunion d'"exceptionnelle". Американская софтверная компания становится пользующимся спросом у спецслужб США экспертом в области лингвистики (в частности, изучения и обработки информации на арабском языке) после терактов 11 сентября 2001 г. В данный момент правительство США, обвиняющее радикальную мусульманскую группировку "Аль Каида" в терактах 2 года назад, активизирует свое внимание к арабскому языку и программам его обработки. Грамматика языков данной группы 「端末側で行単位に(あるいは一 画面分)編集しておいて、 送信キーによりまとめて送信する 」という方式と、 「端末には知能はなく、一字一字 すべてがその都度送られ処理さ れる」 という方式は、究極的に前者は 半二重通信、後者は全二重通信 とフィットします。 後者では、入力のエコーもコンピ ュータ側で制御されます。 つまり、入力した字の表示はキー 入力がコンピュータに送られ、 それが送り返されて表示されま す。 FNPがコンピュータと端末の間に あって、実際の端末とのやりとり を制御するのです。そして、コン ピュータとFNPの間の通信は、 少量の転送には不向きで、大量 の一括転送に向いていました。 FNPによるコンピュータへの割り 込み要求は高価なものだったか らです。Multicsでのプロセスの wake upも高価だということもあり ました。 私ごとになりますが、ちょうどこの ころ大学院生でしたが、ACOS-6 用のある言語処理系の開発を請 け負って作っていました。ACOS- 6はMulticsの概念に非常に近い ものを持っていました、あるいは 持とうとしていました。 また、ハードウェアも大変似てい ました。シールをはがすと、 その下から別のアメリカの会社の 名前が出てくるマシンでテスト したこともありました。1年間ほと んど休みなしにマシンルーム にこもっていて、ここでの議論と 疑問を自分のテーマとしても 扱ったことがあるのです。それで 、よーくわかるのです。 Après avoir rencontré les présidents de quatre des cinq pays africains (Afrique du Sud, Algérie, Sénégal, Nigeria) membres du comité de pilotage du Nouveau partenariat pour le développement économique de l'Afrique Программное обеспечение Basis Technology позволяет осуществлять поиск слов с близкими значениями, а также транслитерировать арабские и фарси-буквы в латинские. Продукт был разработан по специальному заказу правительства США с целью оптимизации процесса анализа арабских текстов. La Grande-Bretagne a de son côté jugé que l'accord de Luxembourg constituait un véritable changement dans la stratégie Après avoir rencontré les présidents de quatre des cinq pays africains (Afrique du Sud, Algérie, Sénégal, Nigeria) membres du comité de pilotage du Le président nigérian Olusegun Obasanjo a salué cette l'engagement du G8, déclarant que "la condition majeure au développement est Программное обеспечение Basis Technology позволяет осуществлять поиск слов с близкими значениями, а также транслитерировать Американская софтверная компания становится пользующимся спросом у спецслужб США экспертом в области В данный момент правительство США, обвиняющее радикальную мусульманскую группировку "Аль Каида" в терактах 2 「端末側で行単位に(あるいは一 画面分)編集しておいて、 送信キーによりまとめて送信する 」という方式と、 「端末には知能はなく、一字一字 すべてがその都度送られ処理さ れる」 FNPがコンピュータと端末の間に あって、実際の端末とのやりとり を制御するのです。そして、コン ピュータとFNPの間の通信は、 少量の転送には不向きで、大量 の一括転送に向いていました。 FNPによるコンピュータへの割り 「端末側で行単位に(あるいは一 画面分)編集しておいて、 送信キーによりまとめて送信する 」という方式と、 「端末には知能はなく、一字一字 すべてがその都度送られ処理さ れる」 French Russian Japanese
  • 20. Text Analytics: Lemmatization flying Search Results fly 132 hits flown 61 hits flew 78 hits flying 97 hits
  • 21. Text Analytics: Lemmatization (Arabic) ‫فجر‬ Search Results (Detonated) ‫وتفجيرها‬ 132 hits ‫متفجرات‬ 77 hits ‫تفجيرات‬ 32 hits ‫فجرها‬ 22 hits ‫تفجرت‬ 2 hits
  • 26. Big Data Triage Text Analytics
  • 27. Big Data Processing • Identify data sources • Data cleansing • Move data into analysis repository Collect • Identify Entities, Facts, Relationships • Link between Documents • Link fact/entity between documents Analyze • Keyword search + metadata filters • Thematic exploration – using metadata • Cross-document links Index
  • 28. Big Data Processing - Technology • Source: News, Twitter, Database, file system, digital forensics, etc. • Storage: HDFS, MongoDB, SQL, etc. Collect • Platform: Hadoop, UIMA, Odyssey, Custom • Analysis type: Language ID, Entity Extraction, Relationship Extraction, Document Clustering, Entity Linking Analyze • Fulltext Search: Solr, Accumulo, Lucene • Structured Data: RDF, SQL, OrientDB, Neo4j, Cassandra, HDFS, etc.Index
  • 29. Big Data Triage Requirements • View results while still processing  Incremental collection/analysis/indexing • User Interface that allows exploration  Dashboard  Keyword Search  Geo Search  Entity Search • Enables thematic exploration  Metadata produced by Analysis makes this easier
  • 34. Entity Search – Cross Language
  • 37. • For more information: • Visit www.basistech.com Thank you!