init

2123a11c · gaojiuli · e6ac1409 · 2123a11c · 2123a11c · 2123a11c
Commit 2123a11c authored May 26, 2017 by gaojiuli
Expand all Show whitespace changes
Inline Side-by-side

Showing with 76 additions and 83 deletions

README.md README.md +0 -3

test_tomd.py test_tomd.py +54 -68

tomd.py tomd.py +22 -12

No files found.
--- a/README.md
+++ b/README.md
@@ -5,7 +5,4 @@ Convert HTML to Markdown.
 from tomd import Tomd
 Tomd('<h1>title</h1>').markdown
-Tomd('<h1>title</h1>','h1').markdown
-Tomd('https://github.com').markdown
-Tomd('https://github.com','.title .content').markdown
 ```
--- a/test_tomd.py
+++ b/test_tomd.py
--- a/tomd.py
+++ b/tomd.py
@@ -7,18 +7,20 @@ MARKDOWN = {
    'h4': ('\n#### ', '\n'),
    'h5': ('\n##### ', '\n'),
    'h6': ('\n###### ', '\n'),
-    'p': ('\n', '\n'),
-    'p_with_out_class': ('\n', '\n'),
    'code': ('`', '`'),
-    'ul': ('\n', '\n'),
+    'ul': ('', ''),
-    'ol': ('\n', '\n'),
+    'ol': ('', ''),
    'li': ('*. ', ''),
    'blockquote': ('> ', '\n'),
    'em': ('**', '**'),
    'a': ('[](', ')'),
    'img': ('![](', ')'),
    'block_code': ('\n```\n', '\n```\n'),
-    'span': ('', '')
+    'span': ('', ''),
+    'p': ('\n', '\n'),
+    'p_with_out_class': ('\n', '\n'),
+    'inline_p': ('', ''),
+    'inline_p_with_out_class': ('', '')
 }
 BlOCK_ELEMENTS = {
@@ -29,23 +31,31 @@ BlOCK_ELEMENTS = {
    'h5': '<h5.*?>(.*?)</h5>',
    'h6': '<h6.*?>(.*?)</h6>',
    'p': '<p\s.*?>(.*?)</p>',
-    'p_with_out_class': '<p>(.*?)</p>',
+    'p_with_out_class': '<p>(.*?)</p>',  # conflict with <pre>
    'blockquote': '<blockquote.*?>(.*?)</blockquote>',
    'ul': '<ul.*?>(.*?)</ul>',
+    'ol': '<ol.*?>(.*?)</ol>',
    'block_code': '<pre.*?><code.*?>(.*?)</code></pre>',
 }
 INLINE_ELEMENTS = {
+    'inline_p': '<p\s.*?>(.*?)</p>',
+    'inline_p_with_out_class': '<p>(.*?)</p>',
    'code': '<code.*?>(.*?)</code>',
    'span': '<span.*?>(.*?)</span>',
+    'ul': '<ul.*?>(.*?)</ul>',
    'ol': '<ol.*?>(.*?)</ol>',
    'li': '<li.*?>(.*?)</li>',
    'img': '<img.*?>(.*?)</img>',
    'a': '<a.*?>(.*?)</a>',
-    'em': '<em.*?>(.*?)</em>',
+    'em': '<em.*?>(.*?)</em>'
-    # 'pre': '<pre.*><code.*>(.*)</code></pre>',
 }
+## pos < max_pos
+DELETE_ELEMENTS = ['<span.*?>', '</span>', '<div.*?>', '</div>']
 class Element:
    def __init__(self, pos, content, tag):
@@ -75,16 +85,16 @@ class Tomd:
        self._elements = []
        self._markdown = None
        self.parse_block()
-        print(self._markdown)
+        for index, element in enumerate(DELETE_ELEMENTS):
-        for element in self._elements:
+            self._markdown = re.sub(element, '', self._markdown)
-            if len(element._result) > 1000:
-                print(element.__dict__)
    def parse_block(self):
        for tag, pattern in BlOCK_ELEMENTS.items():
            for m in re.finditer(pattern, self.html, re.I | re.S | re.M):
                element = Element(pos=m.start(), content=''.join(m.groups()), tag=tag)
                self._elements.append(element)
        self._elements.sort(key=lambda element: element.pos)
        self._markdown = ''.join([str(e) for e in self._elements])