SlideShare una empresa de Scribd logo
1 de 14
From: Hacker Japan 11. 2012
http://www.byakuya-shobo.co.jp/hj/




ようこそヒューリスティックの世
      界へ
                     第2回 文書解析


                                                愛甲健二
                                            twitter: 07c00
                               http://ruffnex.oc.to/kenji/
                                       http://07c00.com/
ポルノサイトの特徴
無修正 動画 画像 経験 アダルト 女の
          子




かわいい 優良 無料 早く 利用 紹介
                      2
特徴抽出
Porno tube movies featuring teen porn
videos, amateur porn and private homemade
movies, mature sex clips. Free full length XXX
videos and wild hardcore from all over the world.

       porn
  amateur Porno
                    XXX
 world     wild
               hardcore
         homemade                 ポルノ集合
                                                    3
各分野で
                     使われる比率の高い
                     単語集合を比較




ポルノ      5%
                    文章A      ?%
  10%                 ??%
              30%                 ??%
 15%                 ??%


   20%        20%      ??%        ??%
                                        4
単純ベイズ
ベイズの定理




条件付き独立とみなし以下のように単純化




                      5
単純ベイズ




        6
学習&検知フロー
1.   任意のポルノサイトから文章を取得
2.   自然言語処理により単語(名詞)を収集
3.   ポルノ集合を作成
4.   単純ベイズにより集合を学習
5.   学習(検知)データを使い任意のWebサ
     イトの”エロ度”を検知
       ---- ----     ポルノ             N
         ---- ----
          ----        ----
            ----     ---- ----
                          ----
                       ----      H
                                         7
ポルノ集合?
動画 366, 日 241, アダルト 166, 月 147, 配信
90, 無料 90, 追加 90, エロ 87, サイト 83, 過去
81, 履歴 81, 再生 77, 時間 77, 女優 65, 名
52, 修正 51, 人 50, 女 44, 中 42, 不明 38, 回
                     From:
34, 画像 33, ブログ 31, TIME 30, 紹介 29, 管理
27, 熟 27, CM 27, アニメ 26, これ 25, 人気
25, 作品 24, ギャル 23, 女性 23, 女の子
23, 2011 22, 人妻 22, 的 22, オナニー 21, 激
20, 素人 20, 方 20, 公開 19, 指定 19, 気 18, 投
稿 18, 検索 18, 僕 17, SEX 17, 何 16, 巨乳 16, 彼
女 16, おっぱい 15, 盗 15, 顔 15
                                        8
Demo




http://www.youtube.com/watch?v=QazcCS4D578

                                             9
頻出命令
     ASM命令の頻出度を用いたマルウェア検知

      Normal              Normal                                    Malware
1.    mov           mov     int3   cmp                         1.   mov
2.    push           push      call                            2.   add
3.    add      je         add pop                              3.   push
4.    call                                   Malware           4.   call
5.    int3                                                     5.   nop
                                         mov       nop   xor
6.    pop                                                      6.   sub
                                            push     call
7.    cmp                             jne                      7.   xor
                                               add sub
8.    je                                                       8.   jne
                                                                           10
順位差ランキング
     もっとも特徴の出るASM命令を選別

     Normal            Malware            順位差
1.   mov          1.   mov           1.   ???
2.   push         2.   add           2.   ???
3.
4.
5.
     add
     call
     int3
              -   3.
                  4.
                  5.
                       push
                       call
                       nop
                                 =   3.
                                     4.
                                     5.
                                          ???
                                          ???
                                          ???
6.   pop          6.   sub           6.   ???
7.   cmp          7.   xor           7.   ???
8.   je           8.   jne           8.   ???
                                                11
学習&検知フロー
1.   任意のマルウェアを取得
2.   逆アセンブルし、ASM命令を収集
3.   順位差ランキングから集合を作成
4.   単純ベイズにより集合を学習
5. 学習(検知)データを使い任意の実行
   ファイルの”マルウェア度”を検知
          ---- ----
                        N
            ---- ----
             ----
     PE        ----
             ASM        M
                            12
Result
-----
00001.bin Malware   Malware OK
...
01708.bin Malware   Normal    ERR
01709.bin Malware   Normal    ERR
01710.bin Normal    Normal    OK
01711.bin Malware   Malware   OK
01712.bin Malware   Normal    ERR
01713.bin Normal    Normal    OK
01714.bin Normal    Normal    OK
01715.bin Malware   Malware   OK
01716.bin Normal    Normal    OK
01717.bin Malware   Malware   OK
01718.bin Normal    Normal    OK
01719.bin Malware   Malware   OK
...
10000.bin Malware   Malware OK
検知率:0.6966
-----                                        13
Thank you!




             Enjoy hacking
                          14

Más contenido relacionado

Último

Último (7)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

Destacado

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Destacado (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

text analyzing

  • 1. From: Hacker Japan 11. 2012 http://www.byakuya-shobo.co.jp/hj/ ようこそヒューリスティックの世 界へ 第2回 文書解析 愛甲健二 twitter: 07c00 http://ruffnex.oc.to/kenji/ http://07c00.com/
  • 2. ポルノサイトの特徴 無修正 動画 画像 経験 アダルト 女の 子 かわいい 優良 無料 早く 利用 紹介 2
  • 3. 特徴抽出 Porno tube movies featuring teen porn videos, amateur porn and private homemade movies, mature sex clips. Free full length XXX videos and wild hardcore from all over the world. porn amateur Porno XXX world wild hardcore homemade ポルノ集合 3
  • 4. 各分野で 使われる比率の高い 単語集合を比較 ポルノ 5% 文章A ?% 10% ??% 30% ??% 15% ??% 20% 20% ??% ??% 4
  • 7. 学習&検知フロー 1. 任意のポルノサイトから文章を取得 2. 自然言語処理により単語(名詞)を収集 3. ポルノ集合を作成 4. 単純ベイズにより集合を学習 5. 学習(検知)データを使い任意のWebサ イトの”エロ度”を検知 ---- ---- ポルノ N ---- ---- ---- ---- ---- ---- ---- ---- ---- H 7
  • 8. ポルノ集合? 動画 366, 日 241, アダルト 166, 月 147, 配信 90, 無料 90, 追加 90, エロ 87, サイト 83, 過去 81, 履歴 81, 再生 77, 時間 77, 女優 65, 名 52, 修正 51, 人 50, 女 44, 中 42, 不明 38, 回 From: 34, 画像 33, ブログ 31, TIME 30, 紹介 29, 管理 27, 熟 27, CM 27, アニメ 26, これ 25, 人気 25, 作品 24, ギャル 23, 女性 23, 女の子 23, 2011 22, 人妻 22, 的 22, オナニー 21, 激 20, 素人 20, 方 20, 公開 19, 指定 19, 気 18, 投 稿 18, 検索 18, 僕 17, SEX 17, 何 16, 巨乳 16, 彼 女 16, おっぱい 15, 盗 15, 顔 15 8
  • 10. 頻出命令 ASM命令の頻出度を用いたマルウェア検知 Normal Normal Malware 1. mov mov int3 cmp 1. mov 2. push push call 2. add 3. add je add pop 3. push 4. call Malware 4. call 5. int3 5. nop mov nop xor 6. pop 6. sub push call 7. cmp jne 7. xor add sub 8. je 8. jne 10
  • 11. 順位差ランキング もっとも特徴の出るASM命令を選別 Normal Malware 順位差 1. mov 1. mov 1. ??? 2. push 2. add 2. ??? 3. 4. 5. add call int3 - 3. 4. 5. push call nop = 3. 4. 5. ??? ??? ??? 6. pop 6. sub 6. ??? 7. cmp 7. xor 7. ??? 8. je 8. jne 8. ??? 11
  • 12. 学習&検知フロー 1. 任意のマルウェアを取得 2. 逆アセンブルし、ASM命令を収集 3. 順位差ランキングから集合を作成 4. 単純ベイズにより集合を学習 5. 学習(検知)データを使い任意の実行 ファイルの”マルウェア度”を検知 ---- ---- N ---- ---- ---- PE ---- ASM M 12
  • 13. Result ----- 00001.bin Malware Malware OK ... 01708.bin Malware Normal ERR 01709.bin Malware Normal ERR 01710.bin Normal Normal OK 01711.bin Malware Malware OK 01712.bin Malware Normal ERR 01713.bin Normal Normal OK 01714.bin Normal Normal OK 01715.bin Malware Malware OK 01716.bin Normal Normal OK 01717.bin Malware Malware OK 01718.bin Normal Normal OK 01719.bin Malware Malware OK ... 10000.bin Malware Malware OK 検知率:0.6966 ----- 13
  • 14. Thank you! Enjoy hacking 14